1 |
Statistical metidos applied to volcanology and volcanic hazard assessmentSobradelo Pérez, Rosa Maria 21 July 2011 (has links)
Disasters are large intractable problems that test the ability of communities and nations to effectively protect their populations
and infrastructure, to reduce both human and property loss, and to rapidly recover. The randomness of impacts and problems,
and uniqueness of incidents demand dynamic, real-time, effective and cost efficient solutions. For this reason, we need
quantitative risk-based methods for decision-making under uncertainty to be developed and applied to volcanology. Volcanic
activity is a natural phenomenon that can turn into a disaster under certain conditions. They are natural processes that cannot
be controlled, but their potentially disastrous effects can be mitigated. Volcanoes have implicit a natural hazard which can
threaten human lives and properties of those communities living near by. The eruptions of volcanoes considered "dormant" or
"inactive" have been liable for major disasters in the past. The volcanic hazard from volcanoes with a long term recurrence
tends to be ignored, especially when little or no historical data exists. This is the case of Teide - Pico Viejo Stratovolcanoes in
the island of Tenerife. Due to the limited scientific observability of the interior of a volcano, there is a lot of uncertainty in
forecasting volcanic eruptions. During a volcanic crisis decision-makers need to take important life and death decisions under
strict time and uncertainty constrains. They are afraid of getting a decision wrong, causing unnecessary economic disruption
and public anxiety and distress. There is an increasing recognition of the need of combining mathematical models, together
with statistical and operations research methods to address disaster management. The interdisciplinary science of
mathematics applied to the study of volcanology and volcanic hazard is an important approach which will help understand
volcanic processes by integrating keen volcanological insights with sound statistical modeling and artful application of
computational power.
The aim of this thesis is to work with volcanologists to try and address, with the appropriate statistical methods, those
questions they raise, and have volcanologists collaborate with statisticians to learn about the advantages in the application of
statistical techniques to the interpretation of volcanic data. Here, we propose and analyze different statistical methodologies to
interpret volcanic data and assess volcanic hazard. The statistical technique will depend on the nature of the data and the type
of problem we want to address. The models will be used to analyze and interpret the historical and geological volcanic data for
Teide-Pico Viejo stratovolcanoes (TPV) and the Canary Islands archipelago. The first statistical method is an Elicitation of
Expert Judgment using the so-called Classical Model to assign probabilities of occurrence to each possible eruptive scenario
that can be outlined from the eruption history of the volcano, and our knowledge of other analogous volcanoes. The aim was to
assess the long-term volcanic hazard of TPV, following an unrest episode in 2004 which created discrepancies among
scientists regarding the nature of the unrest and the level of hazard. The second statistical method is a Bayesian Inference
approach to compute the long-term probability for each volcanic scenario. The idea to use this method came after seeing the
limitations on the Classical Model. The third method is a Non-parametric one-way unbalanced ANOVA using the Kruskal -
Wallis test. This study was suggested following the publication for the first time of the World Collapse Caldera Database
(WCCD) by the Group of Volcanology of Barcelona. The fourth statistical methodology NHGPP (Non-homogeneous
generalized Pareto-Poisson process) uses extreme value theory to study eruptive time series combining geological and
historical records. This methodology is applied to the Canary Islands eruptive time series to study volcanic recurrence. / Los desastres naturales son problemas que ponen a prueba la habilidad de comunidades y naciones para proteger de forma
eficaz su población e infraestructuras, y reducir tanto la pérdida humana como de propiedades. La aleatoriedad de estos
impactos y problemas, así como el carácter único de estos desastres exigen soluciones dinámicas, eficaces, coste efectivas y
en tiempo real. Por esta razón, en volcanología necesitamos métodos cuantitativos que estudien la peligrosidad volcánica
para asistir en la toma de decisiones bajo incertidumbre.
La actividad volcánica es un fenómeno natural que bajo ciertas condiciones se puede transformar en desastre y amenazar
vidas humanas y propiedades de las comunidades que viven cerca. Es un proceso natural que no puede ser controlado, pero
sus potenciales efectos destructivos pueden ser mitigados. Las erupciones de los volcanes considerados “dormidos” o
“inactivos” han sido responsables de mayores desastres en el pasado. La peligrosidad de aquellos volcanes con larga
recurrencia eruptiva suele ser ignorada, sobre todo cuando existen pocos o nulos datos. Este es el caso del complejo
volcánico de Teide-Pico Viejo (TPV) en la isla de Tenerife. Debido a las limitaciones en el estudio científico del interior de un
volcán existe una gran incertidumbre a la hora de predecir erupciones volcánicas.
Durante una crisis volcánica los responsables necesitan tomar decisiones importantes de vida o muerte bajo fuertes
restricciones de tiempo e incertidumbre. Una decisión errónea podría causar pérdidas económicas innecesarias así como
ansiedad y estrés a la población. Existe un creciente reconocimiento de la necesidad de combinar modelos matemáticos y
métodos de estadística e investigación operativa para manejar la gestión de desastres. La ciencia interdisciplinaria de
matemáticas aplicadas al estudio de la volcanología y la peligrosidad volcánica es un enfoque importante que nos ayudará a
entender mejor los procesos volcánicos gracias a la integración de aspectos volcanológicos clave con modelos estadísticos
robustos y programas informáticos.
El objetivo de esta tesis es trabajar con volcanólogos para buscar soluciones, usando las técnicas estadísticas adecuadas, a
los problemas que nos plantean, y al mismo tiempo permitir que volcanólogos y estadísticos trabajen juntos para beneficiarse
de las ventajas de la aplicación de técnicas estadísticas a la interpretación de los datos volcánicos. En este trabajo
proponemos distintas metodologías para interpretar datos y estudiar la peligrosidad volcánica. La técnica estadística
dependerá de la naturaleza de los datos y el tipo de problema a resolver. Los modelos se usan para interpretar los datos
históricos y geológicos del complejo volcánico TPV y de las Islas Canarias.
El primer método es una elicitación de expertos donde se usa el modelo Clásico para asignar probabilidades de ocurrencia a
cada uno de los posibles escenarios eruptivos que pueden darse según la historia eruptiva del volcán y nuestro conocimiento
de volcanes análogos. El objetivo es estudiar la peligrosidad volcánica a largo plazo del TPV, a raíz de un episodio de “unrest”
ocurrido en 2004, que generó discrepancias entre los científicos sobre la naturaleza y nivel de riesgo del evento. El Segundo
método usa inferencia bayesiana para calcular la probabilidad a largo plazo de cada escenario eruptivo. El método surgió a
raíz de las limitaciones en el uso del modelo Clásico. El tercer método usa One-Way unbalanced ANOVA no-paramétrico con
test de Kruskal-Wallis para estudiar calderas de colapso. La cuarta metodología estadística aplica un proceso de Poisson no
homogéneo con distribución de Pareto generalizada (NHGPPP por sus siglas en inglés). Este método usa teoría de los
valores extremos para estudiar la serie temporal de las Islas Canarias con el fin de predecir su recurrencia eruptiva.
|
2 |
Análisis conjunto de múltiples tablas de datos mixtos mediante PLSGonzález Rojas, Victor Manuel 28 November 2014 (has links)
The fundamental content of this thesis corresponds to the development of the GNM-NIPALIS, GNM-PLS2 and GNM-RGCCA methods, used to quantify qualitative variables parting from the first k components given by the appropriate methods in the analysis of J matrices of mixed data. These methods denominated GNM-PLS (General Non Metric Partial Least Squares) are an extension of the NM-PLS methods that only take the first principal component in the quantification function.
The transformation of the qualitative variables is done through optimization processes, usually maximizing functions of covariance or correlation, taking advantage of the flexibility of the PLS algorithms and keeping the properties of group belonging and order if it exists; The metric variables are keep their original state as well, excepting standardization.
GNM-NIPALS has been created for the purpose of treating one (J = 1) mixed data matrix through the quantification via ACP type reconstruction of the qualitative variables parting from a k components aggregated function. GNM-PLS2 relates two (J = 2) mixed data sets Y~X through PLS regression, quantifying the qualitative variables of a space with the first H PLS components aggregated function of the other space, obtained through cross validation under PLS2 regression. When the endogenous matrix Y contains only one answer variable the method is denominated GNM-PLS1.
Finally, in order to analyze more than two blocks (J = 2) of mixed data Y~X1+...+XJ through their latent variables (LV) the GNM-RGCCA was created, based on the RGCCA (Regularized Generalized Canonical Correlation Analysis) method, that modifies the PLS-PM algorithm implementing the new mode A and specifies the covariance or correlation maximization functions related to the process. The quantification of the qualitative variables on each Xj block is done through the inner Zj = Σj ej Yj function, which has J dimension due to the aggregation of the outer Yj estimations. Zj, as well as Yj estimate the ξj component associated to the j-th block. / El contenido fundamental de esta tesis corresponde al desarrollo de los métodos GNM-NIPALS, GNM-PLS2 y GNM-RGCCA para la cuantificación de las variables cualitativas a partir de las primeras k componentes proporcionadas por los métodos apropiados en el análisis de J matrices de datos mixtos. Estos métodos denominados GNM-PLS (General Non Metric Partial Least Squares) son una extensión de los métodos NM-PLS que toman sólo la primera componente principal en la función de cuantificación. La trasformación de las variables cualitativas se lleva a cabo mediante procesos de optimización maximizando generalmente funciones de covarianza o correlación, aprovechando la flexibilidad de los algoritmos PLS y conservando las propiedades de pertenencia grupal y orden si existe; así mismo se conservan las variables métricas en su estado original excepto por estandarización. GNM-NIPALS ha sido creado para el tratamiento de una (J=1) matriz de datos mixtos mediante la cuantificación vía reconstitución tipo ACP de las variables cualitativas a partir de una función agregada de k componentes. GNM-PLS2 relaciona dos (J=2) conjuntos de datos mixtos Y~X mediante regresión PLS, cuantificando las variables cualitativas de un espacio con la función agregada de las primeras H componentes PLS del otro espacio, obtenidas por validación cruzada bajo regresión PLS2. Cuando la matriz endógena Y contiene sólo una variable de respuesta el método se denomina GNM-PLS1. Finalmente para el análisis de más de dos bloques (J>2) de datos mixtos Y~X1+...+XJ a través de sus variables latentes (LV) se implementa el método NM-RGCCA basado en el método RGCCA (Regularized Generalized Canonical Correlation Analysis) que modifica el algoritmo PLS-PM implementando el nuevo modo A y especifica las funciones de maximización de covarianzas o correlaciones asociadas al proceso. La cuantificación de las variables cualitativas en cada bloque Xj se realiza mediante la función inner Zj de dimensión J debido a la agregación de las estimaciones outer Yj. Tanto Zj como Yj estiman la componente ξj asociad al j-ésimo bloque.
|
3 |
Descomposicions de grafs en arbres.López Masip, Susana Clara 20 February 2003 (has links)
No description available.
|
4 |
Modelling with heterogeneityLamberti, Giuseppe 22 June 2015 (has links)
When collecting survey data for a specific study it is usual to have some background information, in the form for example, of socio-demographic variables. In our context, these variables may be useful in identifying potential sources of heterogeneity. Resolving the heterogeneity may mean to perform distinct analyses based on the main variables for distinct and homogeneous segments of the data, defined in terms of the segmentation variables. In 2009 Gastón Sánchez proposed an algorithm PATHMOX with the aim to automatic detecting heterogeneous segments within the PLS-PM methodology. This technique, based on recursive partitioning, produces a segmentation tree with a distinct path models in each node. At each node PATHMOX searches among all splits based on the segmentation variables and chooses the one resulting in the maximal difference between the PLS-PM models in the children nodes. Starting from the work of Sanchez the purpose of the thesis is to extend PATHMOX in the following points:
1. Extension to the PATHMOX approach to detect which constructs differentiate segments. The PATHMOX approach uses a F-global test to identify the best split in heterogeneous segments. Following the same approach it is possible to extend the testing to find which the endogenous constructs are and which are the relationships between constructs responsible of the difference between the segments.
2. Extension to the PATHMOX approach to deal with the factor invariance problem. Originally PATHMOX adapted the estimation of constructs to each detected segment, that is, once a split is performed the PLS-PM model is recalculated in every child. This leads to the problem of invariance: if the the estimation of the latent variables are recalculated in each terminal node of the tree, we cannot be sure to compare the distinct behavior of two individuals who belong to two different terminal nodes. To solve this problem we will propose a invariance test based on the X^2 distribution, where the goal of to test whether the measurement models of each terminal node can be considered equal or not among them.
3. Extension to the PATHMOX approach to overcome the parametric hypothesis of F-test. One critic to the PATHMOX approach, applied in the context of partial least square path modeling, is that it utilizes a parametric test based on the hypothesis that the residuals have a normal distribution to compare two structural models. PLS-PM in general, is utilized to model data that come from survey analysis. These data are characterized by an asymmetric distribution. This situation produces skewness in the distribution of data. As we know, PLS-PM methodology, is based in the absence of assumptions about the distribution of data. Hence, the parametric F test used in PATHMOX may represent a limit of the methodology. To overcome this limit, we will extend the test in the context of LAD robust regression.
4. Generalization of PATHMOX algorithm to any type of modeling methodology. The PATHMOX algorithm has been proposed to analyze heterogeneity in the context of the partial least square path modeling. However, this algorithm can be applied to many other kind of methodologies according to the appropriate split criterion. To generalize PATHMOX we will consider three distinct scenarios: Regression analysis (OLS, LAD, GLM regression) and Principal Component Analysis.
5. Implement the methodology, using the R software as specific library. / Cuando se realiza un estudio científico, el análisis hace énfasis sobre las variables recogidas para responder a las preguntas que se quieren hallar durante el mismo estudio. Sin embargo en muchos análisis se suele recoger más variables, como por ejemplo variables socio demográfico: sexo, status social, edad. Estas variables son conocidas como variables de segmentación, ya que pueden ser útiles en la identificación de posibles fuentes de heterogeneidad. Analizar la heterogeneidad quiere decir realizar distintas análisis para distintos colectivos homogéneos definidos a partir de las variables de segmentación. Muchas veces, si hay algún conocimiento previo, esta heterogeneidad puede ser controlada mediante la definición de segmentos a priori. Sin embargo no siempre se dispone de conocimiento suficiente para definir a priori los grupos. Por otro lado muchas variables de segmentación podrían ser disponibles para analizar la heterogeneidad de acuerdo con un apropiado algoritmo. Un algoritmo desarrollado con este objetivo fue PATHMOX, propuesto por Gastón Sanchez en 2009. Esta técnica, utilizando particiones recursivas, produce un árbol de segmentación con distintos modelos asociados a cada nodo. Para cada nodo, PATHMOX busca entre todas las variables de segmentación aquella que produce una diferencia máxima entre los modelos de los nodos hijos. Tomando como punto de partida el trabajo de Gastón Sanchez esta tesis se propone: 1. Extender PATHMOX para identificar los constructos responsables de la diferencias. PATHMOX nos permite detectar distintos modelos en un data-set sin identificar grupos a priori. Sin embargo, PATHMOX es un criterio global. Pera identificar las distintas ecuaciones y coeficientes responsables de las particiones, introduciremos los test F-block y F-coefficient. 2. Extender PATHMOX para solucionar el problema de la invariancia. En el contexto del PLS-PM (Partial Least Squares Path Modeling), PATHMOX funciona fijando las relaciones causales entre las variables latentes y el objetivo es identificar modelos con coeficientes path lo más posible distintos sin poner ninguna restricción sobre el modelo de medida. Por lo tanto, cada vez que una diferencia significativa es identificada, y dos nodos hijos vienen definidos, las relaciones causales entre las variables latentes son las mismas en ambos modelos "hijos", pero la estimación de cada variable latente se recalcula y no podemos estar seguros de comparar el comportamiento de dos individuos distintos que pertenecen a dos nodos diferentes. Para resolver este problema propondremos un test de invariancia basado en la distribución X^2, donde el objetivo del test es verificar si los modelos de cada nodo terminales se puede considerar igual o no entre ellos. 3. Extender PATHMOX para superar la hipótesis paramétrica del F-test. Una crítica a PATHMOX, aplicadas en el contexto del PLS-PM, es que el algoritmo utiliza una prueba paramétrica, basada en la hipótesis de que los residuos tienen una distribución normal, para comparar dos modelos estructurales. Para superar este límite, extenderemos el test para comparar dos regresiones robustas LAD en el contexto del PLS. 4. La generalización del algoritmo PATHMOX a cualquier tipo de metodología. El algoritmo PATHMOX ha sido propuesto para analizar la heterogeneidad en el contexto PLS-PM. Sin embargo, este algoritmo se puede aplicar a muchos otros tipos de metodologías de acuerdo con un apropiado criterio de partición. Para generalizar PATHMOX consideraremos tres escenarios distintos: modelos de regresión (modelos OLS, LAD, GLM) y el análisis en componentes principales. 5. Implementar la metodología, utilizando el software R como librería específica.
|
5 |
Interval-censored semi-competing risks data: a novel approach for modelling bladder cancerPorta Bleda, Núria 27 July 2010 (has links)
Aquesta tesi tracta sobre tècniques d'anàlisi de supervivència en situacions amb múltiples esdeveniments i patrons complexes de censura. Proposem una nova metodologia per tractar la situació de riscos semi-competitius quan les dades estan censurades en un interval. La motivació del treball neix de la nostra col·laboració amb l'Estudi Espanyol del Càncer de Bufeta (SBC/EPICURO), el més gran estudi sobre càncer de bufeta realitzat fins ara a l'Estat Espanyol. La nostra contribució en el projecte es centra en la modelització i identificació de factors pronòstics de l'evolució de la malaltia.L'evolució de malalties complexes, com el càncer o la infecció VIH, es caracteritza per la ocurrència de múltiples esdeveniments en el mateix pacient: per exemple, la recaiguda de la malaltia o la mort. Aquests esdeveniments poden ser finals, quan el seguiment del pacient s'atura després de l'esdeveniment, o bé intermedis, quan l'individu continua sota observació. La presència d'esdeveniments finals complica l'anàlisi dels intermedis ja que n'impedeix la seva completa observació, induint una possible censura depenent.En aquest context, es requereixen metodologies apropiades. Els següents mètodes són emprats: riscos competitius, models multiestat i riscos semi-competitius. A resultes de l'aplicació de mètodes per riscos competitius i models multi-estat, proposem dues aportacions rellevants al coneixement de la malaltia: (1) la caracterització dels pacients amb un alt risc de progressió com a primer esdeveniment després de la diagnosi, i (2) la construcció d'un model pronòstic dinàmic per al risc de progressió.La situació de riscos competitius es dóna quan volem descriure el temps fins al primer entre K possibles esdeveniments, juntament amb un indicador del tipus d'esdeveniment observat. En l'estudi EPICURO, és rellevant estudiar el temps fins al primer entre recidiva, progressió o mort. La caracterització d'aquest primer esdeveniment permetria seleccionar el millor tractament d'acord amb el perfil de risc basal del pacient.Els models multi-estat descriuen les diferents evolucions que la malaltia pot seguir, establint relacions entre els esdeveniments d'interès: per exemple, un pacient pot experimentar una recidiva del tumor primari, i després morir, o bé pot morir sense haver tingut cap recaiguda de la malaltia. Una característica interessant d'aquests models és que permeten fer prediccions del risc de futurs esdeveniments per a un pacient, d'acord amb la història que hagi pogut tenir fins aquell moment. En el cas de càncer de bufeta podrem avaluar la influència que té en el risc de progressar haver patit o no una recidiva prèvia.Un cas especial de model multi-estat és aquell que conté un esdeveniment intermedi E1, i un esdeveniment final, E2. Siguin T1 i T2 els temps fins aquests esdeveniments, respectivament. Ni l'anàlisi de riscos competitius ni els models multi-estat permeten adreçar l'estudi de la distribució marginal de T1. En efecte, l'anàlisi de riscos competitius tracta amb la distribució del mínim entre els dostemps, T=min(T1,T2), mentre que els models multi-estat es centren en la distribució condicional de T2|T1, és a dir, en com la ocurrència de E1 modifica el risc de E2. En aquest cas, la distribució de T1 no és identificable a partir de les dades observades. La situació abans descrita, on la ocurrència d'un esdeveniment final impedeix l'observació de l'esdeveniment intermedi és coneguda com a riscos semi-competitius (Fine et al., 2001). L'estratègia d'aquests autors passà per assumir un model per a la distribució conjunta (T1, T2), i aleshores recuperar la distribució marginal de T1 derivada d'aquest model.Proposem una nova metodologia per tractar amb riscos semi-competitius quan el temps fins l'esdeveniment intermedi, T1, està censurat en un interval. En molts estudis mèdics longitudinals, la ocurrència de l'esdeveniment d'interès s'avalua en visites periòdiques del pacient, i per tant, T1 és desconegut, però es sap que pertany al interval comprès entre els temps de dues visites consecutives. Els mètodes per riscos semi-competitius en el context usual de censura per la dreta no són vàlids en aquest cas i és necessària una nova aproximació. En aquest treball ampliem la metodología semi-paramètrica proposada per Fine et al. (2001), que assumeix un model de còpula de Clayton (1978) per a descriure la dependència entre T1 i T2. Assumint el mateix model, desenvolupem un algoritme iteratiu que estima conjuntament el paràmetre d'associació del model de còpula, així com la funció de supervivència del temps intermedi T1.Fine, J. P.; Jiang, H. & Chappell, R. (2001), 'On Semi-Competing Risks Data', Biometrika 88(4), 907--919.Clayton, D. G. (1978), 'A Model for Association in Bivariate Life Tables and Its Application in Epidemiological Studies of Familial. Tendency in Chronic Disease Incidence', Biometrika 65(1), 141--151. / La presente tesis trata sobre técnicas de análisis de supervivencia en situaciones con múltiples eventos y patrones complejos de censura. Proponemos una nueva metodología para tratar el problema de riesgos semi-competitivos cuando los datos están censurados en un intervalo. La motivación de este trabajo nace de nuestra colaboración con el estudio Español de Cáncer de Vejiga (SBC/EPICURO), el más grande estudio sobre cáncer de vejiga realizado en España hasta el momento. Nuestra participación en el mismo se centra en la modelización e identificación de factores pronósticos en el curso de la enfermedad.El curso de enfermedades complejas tales como el cáncer o la infección por VIH, se caracteriza por la ocurrencia de múltiples eventos en el mismo paciente, como por ejemplo la recaída o la muerte. Estos eventos pueden ser finales, cuando el seguimiento del paciente termina con el evento, o bien intermedios, cuando el individuo sigue bajo observación. La presencia de eventos finales complica el análisis de los eventos intermedios, ya que impiden su completa observación, induciendo una posible censura dependiente.En este contexto, se requieren metodologías apropiadas. Se utilizan los siguientes métodos: riesgos competitivos, modelos multiestado y riesgos semi-competitivos. De la aplicación de métodos para riesgos competitivos y modelos multi-estado resultan dos aportaciones relevantes sobre el conocimiento de la enfermedad: (1) la caracterización de los pacientes con un alto riesgo de progresión como primer evento después del diagnóstico, y (2) la construcción de un modelo pronóstico y dinámico para el riesgo de progresión.El problema de riesgos competitivos aparece cuando queremos describir el tiempo hasta el primero de K posibles eventos, junto con un indicador del tipo de evento observado. En el estudio SBC/EPICURO es relevante estudiar el tiempo hasta el primero entre recidiva, progresión o muerte. La caracterización de este primer evento permitiría seleccionar el tratamiento más adecuado de acuerdo con el perfil de riesgo basal del paciente.Los modelos multi-estado describen las diferentes tipologías que el curso de la enfermedad puede seguir, estableciendo relaciones entre los eventos de interés. Por ejemplo, un paciente puede experimentar una recidiva y después morir, o bien puede morir sin haber tenido recaída alguna. El potencial interesante de los modelos multi-estado es que permiten realizar predicciones sobre el riesgo de futuros eventos dada la historia del paciente hasta ese momento. En el caso del cáncer de vejiga, podremos evaluar la influencia que tiene en el riesgo de progresar el haber tenido o no una recidiva previa.Un caso especial de modelo multi-estado es el que contiene un evento intermedio E1 y uno final, E2. Sean T1 y T2 los tiempos hasta tales eventos, respectivamente. Ni el análisis de riesgos competitivos ni los modelos multi-estado permiten estudiar la distribución marginal de T1. En efecto, el análisis de riesgos competitivos trata con la distribución del mínimo entre los dos tiempos, T=min(T1,T2), mientras que los modelos multi-estado se centran en la distribución condicional de T2 dado T1, T2|T1, en cómo la ocurrencia de E1 modifica el riesgo de E2. En ambos casos, la distribución de T1 no es identificable a partir de los datos observados.La situación anteriormente descrita donde un evento final impide la observación de un evento intermedio se conoce como riesgos semi-competitivos (Fine et al. 2001). La estrategia de estos autores asume un modelo para la distribución conjunta (T1,T2) para así recuperar la distribución de T1 derivada de ese modelo.Proponemos una nueva metodología para tratar con riesgos semi-competitivos cuando el tiempo hasta el evento intermedio, T1, esta censurado en un intervalo. En muchos estudios médicos longitudinales, la ocurrencia del evento de interés se evalúa en visitas periódicas al paciente, por lo que T1 es desconocido, aunque se conoce que pertenece al intervalo comprendido entre los tiempos de dos visitas consecutivas. Los métodos para riesgos semi-competitivos en el contexto usual de censura por la derecha no son válidos en este caso y se requiere una nueva aproximación. En este trabajo ampliamos la metodología semi-paramétrica propuesta por Fine et al. (2001), que asume una cópula de Clayton (1978) para describir la dependencia entre T1 y T2. Bajo el mismo modelo de asociación, desarrollamos un algoritmo iterativo que estima conjuntamente el parámetro de asociación del modelo de cópula, así como la función de supervivencia del tiempo al evento intermedio T1.Fine, J. P.; Jiang, H. & Chappell, R. (2001), 'On Semi-Competing Risks Data', Biometrika 88(4), 907--919. Clayton, D. G. (1978), 'A Model for Association in Bivariate Life Tables and Its Application in Epidemiological Studies of Familial. Tendency in Chronic Disease Incidence', Biometrika 65(1), 141--151.
|
6 |
A principal component method to analyse disconnected frequency tables by means of contextual informationKostov, Belchin Adriyanov 10 July 2015 (has links)
This thesis arises from the need to deal with open-ended questions answered in different languages in international surveys. For every language, the free answers are encoded in the form of a individuals x words lexical table. An important feature is that the lexical tables, from one language to the other, have neither the row-individuals nor the column-words in common. However, the global analysis and the comparison of the different samples require to place all the words, in any language, in the same space. As a solution, we propose to integrate the answers to the closed questions into the analysis, where the contextual variables the same for all the samples. This integration plays an essential role by permitting a global analysis. Thus, for every language, we have one lexical table and one categorical/quantitative table, a structure that we call "coupled tables". The global complex data structure is a sequence of "coupled tables". To analyse these data, we adopt a Correspondence Analysis-like approach. We propose a method which combines: Multiple Factor Analysis for Contingency Tables, in order to balance the influence of the sets of words in the global analysis and Correspondence Analysis on a Generalised Aggregated Lexical Table, which places all the words in the same space. The new method is called Multiple Factor Analysis on Generalised Aggregated Lexical Table. The results in an application show that the method provides outputs that are easy to interpret. They allow for studying the similarities/dissimilarities between the words including when they belong to different languages as far as they are associated in a similar/different way to the contextual variables. The methodology can be applied in other fields provided that the data are coded in a sequence of coupled tables. / Esta tesis surge de la necesidad de tratar las preguntas abiertas respondidas en diferentes idiomas en las encuestas internacionales. En cada uno de los idiomas, las respuestas libres se codifican en la forma de una tabla léxica de individuos x palabras. Una característica importante de estas tablas léxicas es que, de un idioma a otro, no tienen ni las filas-individuos ni las columnas-palabras en común. Sin embargo, el análisis global y la comparación de las diferentes muestras requiere proyectar todas las palabras del cualquier idioma en un mismo espacio. Como solución, se propone integrar las respuestas a las preguntas cerradas en el análisis, donde las variables contextuales son las mismas para todas las muestras. Esta integración juega un papel esencial al permitir un análisis global de los datos. Por lo tanto, para cada idioma, tenemos una tabla léxica y una tabla contextual con variables categóricas o cuantitativas, la estructura que llamamos "tablas acopladas". Y la estructura global compleja se llama secuencia de "tablas acopladas". Para analizar estos datos, adoptamos un enfoque similar a lo de análisis de correspondencias. Proponemos un método que combina: análisis factorial múltiple para las tablas de contingencia con el objetivo de equilibrar la influencia de los grupos de palabras en el análisis global y análisis de correspondencias en las tablas léxicas agregadas generalizadas, lo que permite proyectar todas las palabras en un mismo espacio. El nuevo método se llama Análisis Factorial Múltiple en las tablas léxicas agregadas generalizadas. Aplicación sobre una encuesta de satisfacción muestra que el método proporciona resultados que son fáciles de interpretar. Estos resultados permiten estudiar las similitudes/diferencias entre las palabras, incluyendo cuando pertenecen a diferentes idiomas, en función de su asociación con las variables contextuales. La metodología se puede aplicar en otros campos siempre y cuando los datos se codifiquen en una secuencia de "tablas acopladas".
|
7 |
Particle filtering estimation for linear and nonlinear state-space modelsAcosta Argueta, Lesly María 29 November 2013 (has links)
The sequential estimation of the states (filtering) and the corresponding simultaneous estimation of the states and fixed parameters of a dynamic state-space model, being linear or not, is an important probleminmany fields of research, such as in the area of finance.
The main objective of this research is to estimate sequ entially and efficiently –from a Bayesian perspective via the particle filtering methodology– the states and/or the fixed parameters of a nonstandard dynamic state-spacemodel: one that is possibly nonlinear, non-stationary or non-Gaussian.
The present thesis consists of seven chapters and is structured into two parts. Chapter 1 introduces basic concepts, themotivation, the purpose, and the outline of the thesis. Chapters 2-4, the first part of the thesis, focus on the estimation of the states. Chapter 2 provides a comprehensive review of themost classic algorithms (non-simulation based: KF, EKF, and UKF; and simulation based: SIS, SIR, ASIR, EPF, and UPF1) used for filtering solely the states of a dynamic statespacemodel. All these filters scattered in the literature are not only described in detail, but also placed
in a unified notation for the sake of consistency, readability and comparability. Chapters 3 and 4 confirm the efficiency of the well-established particle filtering methodology, via extensive Monte Carlo (MC) studies, when estimating only the latent states for a dynamic state-space model, being linear or not. Also, complementary MC studies are conducted to analyze some relevant issues within the adopted approach, such as the degeneracy problem, the resampling strategy, or the possible impact on estimation of the number of particles used and the time series length.
Chapter 3 specifically illustrates the performance of the particle filtering methodology in a linear and Gaussian context, using the exact Kalman filter as a benchmark. The performance of the four studied particle filter variants (SIR, SIRopt, ASIR, KPF, the latter being a special case of the EPF algorithm) is assessed using two apparently simple, but important time series processes: the so-called Local Level Model (LLM) and the AR(1) plus noise model, which are non-stationary and stationary, respectively. An exhaustive study on the effect of the signal-to-noise ratio (SNR) over the quality of the estimation is additionally performed. ComplementaryMC studies are conducted to assess the degree of degeneracy and the possible effect of increasing the number of particles and the time series length. Chapter 4 assesses and illustrates the performance of the particle filtering methodology in a nonlinear context. Specifically, a synthetic nonlinear, non Gaussian and non-stationary state space model taken from literature is used to illustrate the performance of the four competing particle filters under study (SIR, ASIR, EPF, UPF) in contraposition to two well-known non-simulation based filters (EKF, UKF). In this chapter, the residual and stratified resampling schemes are compared and the effect of increasing the number of particles is addressed.
In the second part (Chapters 5 and 6), extensive MC studies are carried out, but the main goal is the simultaneous estimation of states and fixed model parameters for chosen non-standard dynamic models. This area of research is still very active and it is within this area where this thesis contributes themost. Chapter 5 provides a partial survey of particle filter variants used to conduct the simultaneous estimation of states and fixed parameters. Such filters are an extension of those previously adopted for estimating solely the states. Additionally, a MC study is carried out to estimate the state (level) and the two fixed variance parameters of the non-stationary local level model; we use four particle filter variants (LW, SIRJ, SIRoptJ, KPFJ), six typical settings of the SNR and two settings for the discount factor needed in the jittering step. In this chapter, the SIRJ particle filter variant is proposed as an alternative to the well-established filter of Liu West (LW PF). The combined use of a Kalman-based proposal distribution and a jittering step is proposed and explored, which gives rise to the particle filter variant called: the Kalman Particle Filter plus Jittering (KPFJ). Chapter 6 focuses on estimating the states and three fixed parameters of the non-standard basic stochastic volatility model known as stochastic autoregressive volatility model of order one: SARV(1). After an introduction and detailed description of the stylized features of financial time series, the estimation ability of two competing particle filter variants (SIRJ vs LW(Liu andWest)) is shown empirically using simulated data. The chapter ends with an application to real data sets from the financial area: the Spanish IBEX 35 returns index and the Europe Brent Spot prices (in dollars). The contribution in chapters 5 and 6 is to propose new variants of particle filters, such as the KPFJ, the SIRJ, and the SIRoptJ (a special case of the SIRJ that uses an optimal proposal distribution) that have developed along this work. The thesis also suggests that the so-called EPFJ (Extended Particle Filter with Jittering) and the UPFJ (Unscented Particle Filter with Jittering) algorithms could be reasonable choices when dealingwith highly nonlinearmodels. In this part, also relevant issueswithin the particle filteringmethodology are discussed, such as the potential impact on estimation of the discount factor parameter, the time series length, and the number of particles used.
Throughout this work, pseudo-codes are written for all filters studied and are implemented in RLanguage. The reported findings are obtained as the result of extensive MC studies, considering a variety of case-scenarios described in the thesis. The intrinsic characteristics of the model at hand
guided -according to suitability– the choice of filters in each specific situation. The comparison of filters is based on the RMSE, the elapsed CPU-time and the degree of degeneracy.
Finally, Chapter 7 includes the discussion, contributions, and future lines of research. Some complementary theoretical and practical aspects are presented in the appendix. / L’estimació seqüencial dels estats (filtratge) i la corresponent estimació simultània dels estats i els paràmetres fixos d’unmodel dinàmic formulat en forma d’espai d’estat –sigui lineal o no– constitueix un problema de rellevada importància enmolts camps, com ser a l’àrea de finances.
L’objectiu principal d’aquesta tesi és el d’estimar seqüencialment i de manera eficient –des d’un punt de vista bayesià i usant lametodologia de filtratge de partícules– els estats i/o els paràmetres fixos d’unmodel d’espai d’estat dinàmic no estàndard: possiblement no lineal, no gaussià o no estacionari. El present treball consisteix de 7 capítols i s’organitza en dues parts. El Capítol 1 hi introdueix conceptes bàsics, lamotivació, el propòsit i l’estructura de la tesi.
La primera part d’aquesta tesi (capítols 2 a 4) se centra únicament en l’estimació dels estats. El Capítol 2 presenta una revisió exhaustiva dels algorismes més clàssics no basats en simulacions (KF, EKF, UKF2) i els basats en simulacions (SIS, SIR, ASIR, EPF, UPF). Per a aquests filtres, tots esmentats en la literatura, amés de descriure’ls detalladament, s’ha unificat la notació amb l’objectiu que aquesta sigui consistent i comparable entre els diferents algorismes implementats al llarg d’aquest treball. Els capítols 3 i 4 se centren en la realització d’estudis Monte Carlo (MC) extensos que confirmen l’eficiència de la metodologia de filtratge de partícules per estimar els estats latents d’un procés dinàmic formulat en forma d’espai d’estat, sigui lineal o no. Alguns estudis MC complementaris es duen a terme per avaluar diferents aspectes de la metodologia de filtratge de partícules, com ser el problema de la degeneració, l’elecció de l’estratègia de remostreig, el nombre de partícules usades o la grandària de la sèrie temporal.
Específicament, el Capítol 3 il·lustra el comportament de la metodologia de filtratge de partícules en un context lineal i gaussià en comparació de l’òptim i exacte filtre de Kalman. La capacitat de filtratge de les quatre variants de filtre de partícules estudiades (SIR, SIRopt, ASIR, KPF; l’últim sent un cas especial de l’algorisme EPF) es va avaluar sobre la base de dos processos de sèries temporals aparentment simples però importants: els anomenats Local Level Model (LLM) i el AR (1) plus noise, que són no estacionari i estacionari, respectivament. Aquest capítol estudia en profunditat temes rellevants dins de l’enfocament adoptat, coml’impacte en l’estimació de la relació entre el senyal i el soroll (SNR: signal-to-noise-ratio, en aquesta tesi), de la longitud de la sèrie temporal i del nombre de partícules. El Capítol 4 avalua i il·lustra el comportament de la metodologia de filtratge de partícules en un context no lineal. En concret, s’utilitza un model d’espai d’estat no lineal, no gaussià i no estacionari pres de la literatura per il·lustrar el comportament de quatre filtres de partícules (SIR, ASIR, EPF, UPF) en contraposició a dos filtres no basats en simulació ben coneguts (EKF, UKF). Aquí es comparen els esquemes de remostreig residual i estratificat i s’avalua l’efecte d’augmentar el nombre de partícules.
A la segona part (capítols 5 i 6), es duen a terme també estudis MC extensos, però ara l’objectiu principal és l’estimació simultània dels estats i paràmetres fixos de certsmodels seleccionats. Aquesta àrea de recerca segueix sentmolt activa i és on aquesta tesi hi contribueixmés. El Capítol 5 proveeix una revisió parcial dels mètodes per dur a terme l’estimació simultània dels estats i paràmetres fixos a través de la metodologia de filtratge de partícules. Aquests filtres són una extensió d’aquells adoptats anteriorment només per estimar els estats. Aquí es realitza un estudi MC
per estimar l’estat (nivell) i els dos paràmetres de variància del model LLM no estacionari; s’utilitzen quatre variants (LW, SIRJ, SIRoptJ, KPFJ) de filtre de partícules, sis escenaris típics del SNR i dos escenaris per a l’anomenat factor de descompte necessari en el pas de diversificació. En aquest capítol, es proposa la variant de filtre de partícules SIRJ (Sample Importance Resampling with Jittering) com a alternativa al filtre de referència de Liu iWest (LWPF). També es proposa i explora l’ús combinat d’una distribució d’importància basada en el filtre de Kalman i un pas de diversificació (jittering) que dóna lloc a la variant del filtre de partícules anomenada Kalman Particle Filteringwith Jittering (KPFJ). El Capítol 6 se centra en l’estimació dels estats i dels paràmetres fixos delmodel bàsic no estàndard de volatilitat estocàstica denominat Stochastic autoregressive model of order one: SARV (1). Després d’una introducció i descripció detallada de les característiques pròpies de sèries temporals financeres, es demostra mitjançant estudis MC la capacitat d’estimació de dues variants de filtre de partícules (SIRJ vs. LW(Liu iWest)) utilitzant dades simulades. El capítol acaba amb una aplicació a dos conjunts de dades reals dins de l’àrea financera: l’índex de rendiments espanyol IBEX 35 i els preus al comptat (en dòlars) del Brent europeu. La contribució en els capítols 5 i 6 consisteix en proposar noves variants de filtres de partícules, compoden ser el KPFJ, el SIRJ i el SIRoptJ (un cas especial de l’algorisme SIRJ utilitzant una distribució d’importància òptima) que s’han desenvolupat al llarg d’aquest treball. També se suggereix que els anomenats filtres de partícules EPFJ (Extended Particle Filter with Jittering) i UPFJ (Unscented Particle Filter with Jittering) podrien ser opcions raonables quan es tracta de models altament no lineals; el KPFJ sent un cas especial de l’algorisme EPFJ. En aquesta part, també es tracten aspectes rellevants dins de la metodologia de filtratge de partícules, com ser l’impacte potencial en l’estimació de la longitud de la sèrie temporal, el paràmetre de factor de descompte i el nombre de partícules.
Al llarg d’aquest treball s’han escrit (i implementat en el llenguatge R) els pseudo-codis per a tots els filtres estudiats. Els resultats presentats s’obtenenmitjançant simulacionsMonte Carlo (MC) extenses, tenint en compte variats escenaris descrits en la tesi. Les característiques intrínseques del model baix estudi van guiar l’elecció dels filtres a comparar en cada situació específica. Amés, la comparació dels filtres es basa en el RMSE (RootMean Square Error), el temps de CPU i el grau de degeneració.
Finalment, el Capítol 7 presenta la discussió, les contribucions i les línies futures de recerca. Alguns aspectes teòrics i pràctics complementaris es presenten en els apèndixs. / La estimación secuencial de los estados (filtrado) y la correspondiente estimación simultánea de los estados y los parámetros fijos de un modelo dinámico formulado en forma de espacio de estado –sea lineal o no– constituye un problema de relevada importancia enmuchos campos, como ser en el área de finanzas.
El objetivo principal de esta tesis es el de estimar secuencialmente y de manera eficiente –desde un punto de vista bayesiano y usando la metodología de filtrado de partículas– los estados y/o los parámetros fijos de un modelo de espacio de estado dinámico no estándar: posiblemente no lineal, no gaussiano o no estacionario. El presente trabajo consta de 7 capítulos y se organiza en dos partes. El Capítulo 1 introduce conceptos básicos, la motivación, el propósito y la estructura de la tesis.
La primera parte de esta tesis (capítulos 2 a 4) se centra únicamente en la estimación de los estados. El Capítulo 2 presenta una revisión exhaustiva de los algoritmos más clásicos no basados en simulaciones (KF, EKF,UKF3) y los basados en simulaciones (SIS, SIR, ASIR, EPF, UPF). Para todos estos filtros, mencionados en la literatura, además de describirlos en detalle, se ha unificado la notación con el objetivo
de que ésta sea consistente y comparable entre los diferentes algoritmos implementados a lo largo de este trabajo. Los capítulos 3 y 4 se centran en la realización de estudios Monte Carlo (MC) extensos que confirman la eficiencia de la metodología de filtrado de partículas para estimar los estados latentes de un proceso dinámico formulado en forma de espacio de estado, sea lineal o no. Algunos estudios MC complementarios se llevan a cabo para evaluar varios aspectos de la metodología de filtrado de partículas, como ser el problema de la degeneración, la elección de la estrategia de remuestreo, el número de partículas usadas o el tamaño de la serie temporal. Específicamente, el Capítulo 3 ilustra el comportamiento de lametodología de filtrado de partículas en un contexto lineal y gaussiano en comparación con el óptimo y exacto filtro de Kalman. La capacidad de filtrado de las cuatro variantes de filtro de partículas estudiadas (SIR, SIRopt, ASIR, KPF; el último siendo un caso especial del algoritmo EPF) se evaluó en base a dos procesos de series temporales aparentemente simples pero importantes: los denominados Local Level Model (LLM) y el AR (1) plus noise, que son no estacionario y estacionario, respectivamente. Este capítulo estudia en profundidad
temas relevantes dentro del enfoque adoptado, como el impacto en la estimación de la relación entre la señal y el ruido (SNR: signal-to-noise-ratio, en esta tesis), de la longitud de la serie temporal y del número de partículas. El Capítulo 4 evalúa e ilustra el comportamiento de la metodología de filtrado de partículas en un contexto no lineal. En concreto, se utiliza un modelo de espacio de estado no lineal, no gaussiano y no estacionario tomado de la literatura para ilustrar el comportamiento de cuatro filtros de partículas (SIR, ASIR, EPF, UPF) en contraposición a dos filtros no basados en simulación bien conocidos (EKF, UKF). Aquí se comparan los esquemas de remuestreo residual y estratificado y se evalúa el efecto de
aumentar el número de partículas.
En la segunda parte (capítulos 5 y 6), se llevan a cabo también estudios MC extensos, pero ahora el objetivo principal es la estimación simultánea de los estados y parámetros fijos de ciertos modelos seleccionados. Esta área de investigación sigue siendo muy activa y es donde esta tesis contribuye más. El Capítulo 5 provee una revisión parcial de losmétodos para llevar a cabo la estimación simultánea de los estados y parámetros fijos a través de lametodología de filtrado de partículas. Dichos filtros son una extensión de aquellos adoptados anteriormente sólo para estimar los estados. Aquí se realiza un estudio MC para estimar el estado (nivel) y los dos parámetros de varianza del modelo LLM no estacionario; se utilizan cuatro variantes (LW, SIRJ, SIRoptJ, KPFJ) de filtro de partículas, seis escenarios típicos del SNR y dos escenarios para el llamado factor de descuento necesario en el paso de diversificación. En este capítulo, se propone la variante de filtro de partículas SIRJ (Sample Importance
resampling with Jittering) como alternativa al filtro de referencia de Liu y West (LW PF). También se propone y explora el uso combinado de una distribución de importancia basada en el filtro de Kalman y un paso de diversificación (jittering) que da lugar a la variante del filtro de partículas denominada Kalman Particle Filteringwith Jittering (KPFJ). El Capítulo 6 se centra en la estimación de los estados y de los parámetros fijos del modelo básico no estándar de volatilidad estocástica denominado Stochastic autoregressivemodel of order one: SARV (1). Después de una introducción y descripción detallada de las características propias de series temporales financieras, se demuestra mediante estudios MC la capacidad de estimación de dos variantes de filtro de partículas (SIRJ vs. LW (Liu y West)) utilizando datos simulados. El capítulo termina con
una aplicación a dos conjuntos de datos reales dentro del área financiera: el índice de rendimientos español IBEX 35 y los precios al contado (en dólares) del Brent europeo. La contribución en los capítulos 5 y 6 consiste en proponer nuevas variantes de filtros de partículas, como pueden ser el KPFJ, el SIRJ y el SIRoptJ (Caso especial del algoritmo SIRJ utilizando una distribución de importancia óptima) que se han desarrollado a lo largo de este trabajo. También se sugiere que los llamados filtros de partículas EPFJ (Extended Particle Filter with Jittering) y UPFJ (Unscented
Particle Filter with Jittering) podrían ser opciones razonables cuando se trata de modelos altamente no lineales; el KPFJ siendo un caso especial del algoritmo EPFJ. En esta parte, también se tratan aspectos relevantes dentro de lametodología de filtrado de partículas, como ser el impacto potencial en la estimación de la longitud de la serie temporal, el parámetro de factor de descuento y el número de partículas.
A lo largo de este trabajo se han escrito (e implementado en el lenguaje R) los pseudo-códigos para todos los filtros estudiados. Los resultados presentados se obtienen mediante simulaciones Monte Carlo (MC) extensas, teniendo en cuenta variados escenarios descritos en la tesis. Las características intrínsecas del modelo bajo estudio guiaron la elección de los filtros a comparar en cada situación específica. Además, la comparación de los filtros se basa en el RMSE (Root Mean Square Error), el tiempo de CPU y el grado de degeneración.
Finalmente, el Capítulo 7 presenta la discusión, las contribuciones y las líneas futuras de investigación. Algunos aspectos teóricos y prácticos complementarios se presentan en los apéndices.
|
8 |
Medium-term power planning in electricity markets with renewable generation sourcesMarí Tomàs, Laura 25 September 2015 (has links)
The problem addressed in this thesis is the medium-term generation planning over a yearly horizon of a generation company participating in a liberalized electricity market with pool auction of generation and consumption and with bilateral contracts between generation companies and distributions companies or big consumers. It is assumed that the generation portfolio of several generation companies includes a significant proportion of dispatchable renewables (hydro generation with storage reservoirs and pumping schemes) and non-dispatchable renewables as wind power and solar photovoltaic generation. It is also assumed than more than one generation company are able to influence market-price levels through their bidding in the auction so that the market could be oligopolistic. The results obtained are of interest to price-maker generation companies, but also to price-taker generators, and to the market operator to check whether the participants in the market behave as a cartel or seeking an equilibrium.
The stochasticity of parameters in the medium-term planning is modeled in two ways. Regarding consumers load and generation unit outages, through the use of the probabilistic method of load matching: by representing the load through predicted load-duration curves of each period into which the yearly horizon is subdivided, by considering the capacity and an outage probability of each generation unit and by using the existing convolution techniques and the linear-inequality load-matching constraints.
Regarding renewable energy sources, stochastic programming is used. Hydro-generation scenarios of inflows are developed for each period. As for non-dispatchable renewables (wind power and solar photo-voltaic generation), a novel model of representing them through two pseudo-units: one base unit with small outage probability and a crest unit with large outage probability is proposed, and scenarios are developed for the relevant parameters of the pseudo-units. The solar photo-voltaic generation model requires splitting each period into three subperiods with the dark hours, with the medium-light hours and with the bright hours.
Quasi-Monte Carlo techniques have been employed to create a large scenario fan later reduced to a scenario tree with a reduced number of scenarios.
Market prices are taken into account through an endogenous linear market-price function of load duration whose intercept depends on total hydro generation level and on wind power and solar photovoltaic level in each node of the scenario tree. With such market price function, the endogenous cartel solution and the equilibrium solutions to the medium-term planning can be obtained. To avoid having to consider the total exponential number of load-matching constraints, a load matching heuristic has been employed where small batches of new load matching constraints are generated after successive optimizations considering only the generated load matching constraints. For equilibrium solutions, the Nikaido-Isoda relaxation algorithm of successive solutions is employed using the successive optimizations of the load-matching heuristic.
In mixed-market systems with auction and bilateral contracts, a time-share hypothesis is formulated and the profits function for generation companies with the generation left after honoring their bilateral contracts is formulated. The profit function obtained is non-convex, and a direct global optimization solver was tried, but proved not to be practical for the size of problem to be solved. A non-linear interior-point constrained optimization solver, also employed for problems in pure pool markets, was tried with several special techniques to circumvent the troubles caused by the non-convexity of the objective function and satisfactory results were obtained.
A novel model of multi-period medium-term pumping was presented and employed. Results for several realistic test cases having different generation settings have been presented and analyzed. / El problema adreçat en aquesta tesi és el de la planificació a mig termini de la generació elèctrica d'una companyia que participa dins d'un mercat elèctric. S'ha assumit que aquestes companyies generadores disposen d'una proporció significant d'energies renovables despatxables (com la generació hidràulica amb embassaments d'emmagatzematge i sistemes de bombeig) i d'energies renovables no-despatxables tals com l'energia eòlica i la generació d'energia solar fotovoltaica. També s’ha tingut en compte que més d'una companyia generadora és capaç d'influir en els nivells de preu de mercat a través de les seves ofertes dins de la subhasta tractant-se, doncs, d'un mercat oligopolístic. Els resultats obtinguts són interessants per a companyies generadores del tipus 'price-maker', però alhora també ho són per companyies 'price-taker' i, finalment, també ho són per a l'operador del mercat per tal de comprovar si els participants en el mercat es comporten com si hi hagués 'cartel' o si bé busquen l'equilibri. L'estocasticitat de la càrrega i les panes de les unitats de generació dins de la planificació a mig termini es modela mitjançant l'ús del mètode probabilístic de recobriment de la càrrega: tot representant la càrrega a través de corbes predites de durada de la càrrega per a cada període tractat, utilitzant tècniques existents de convolucions i les anomenades constriccions de recobriment de la càrrega que són de desigualtat i lineals. Pel que fa a les energies renovables s'ha emprat programació estocàstica. Per a cada període s'han desenvolupat escenaris d'hidràulica per a les aportacions naturals d'aigua. Pel que fa a les renovables no-despatxables (eòlica i solar), es presenta un nou model per a representar-les a través de dues pseudo-unitats: una unitat de base amb una probabilitat de pana molt petita i una unitat de cresta amb una probabilitat de pana gran. La generació solar requereix un model més complex ja que s'han dividit les hores solars en tres subperíodes: sense sol, sol mig i sol. També s'han creat escenaris per als paràmetres més rellevants d'aquestes pseudo-unitats. S'han emprat mètodes de Quasi-Monte Carlo per a crear un gran arbre d'escenaris de tipus FAN que, posteriorment, s'ha reduït a un arbre d'escenaris d'una determinada mida. La funció de preu de mercat respecte a la durada de la càrrega és una funció endògena on es té en compte la variació observada del nivell dels preus amb la generació hidràulica, la generació eòlica i la solar a cada node dins de l'arbre d'escenaris. Amb aquest tipus de funció de preu de mercat, les solucions de cartel i les d'equilibri poden ser obtingudes. Per tal de no haver de considerar un nombre exponencial de constriccions de recobriment, s'utilitza una heurística on petits subconjunts de restriccions es van generant després de successives optimitzacions considerant només les constriccions de recobriment generades. Per a les solucions d'equilibri, s'ha utilitzat l'algoritme de relaxació de Nikaido-Isoda en les successives optimitzacions de l'heurística. Pels mercats mixtos (amb subhasta i contractes bilaterals) s'ha formulat una hipòtesi de 'time-share' i s’ha presentat una funció de beneficis de les empreses generadores on només es té en compte la generació que resta després d'haver satisfet els contractes bilaterals. La funció obtinguda és no convexa i s'ha utilitzat un resolutor d'optimització global, però s'ha vist que no era pràctic per a la mida del problema que s'estava solucionant. Per aquest motiu, s'ha utilitzat un resolutor no lineal de punt interior (Ipopt) amb diverses tècniques especials per tal d'eludir els problemes causats per la no convexitat de la funció objectiu tot obtenint resultats satisfactoris. Finalment, s'ha presentat i s'ha utilitzat un nou mètode per introduir els esquemes de bombeig multi-període i a mig termini. Es mostren i s'analitzen els resultats obtinguts per a diversos casos de prova (realistes) amb diferents configuracions de generació.
|
9 |
La imputación múltiple y su aplicación a series temporales financierasCano Berlanga, Sebastian 19 November 2013 (has links)
Cuando una base de datos presenta valores no disponibles (NA ó missings), su análisis es imposible hasta que no se decida lo que hacer con ellos. A tal efecto, la literatura ha desarrollado distintos enfoques para enfrentarse a este problema. Los primero métodos fueron los basados en regresión (Yates [1933]), y posteriormente se utilizaron algoritmos basados en la función de verosimilitud (algoritmo EM).
Rubin [1987] estudia el problema de los NA y pone de manifiesto que los algoritmos mencionados son de imputación única y, entre sus inconvenientes más importantes, destaca la omisión de la incertidumbre que causa la presencia de los missings en el ulterior análisis. Para tal fin, Rubin [1987] propone la imputación múltiple, cuyo objetivo es la medición de la incertidumbre omitida por los métodos de imputación única, lo que se consigue mediante dos herramientas: algoritmos MCMC y la inferencia de Rubin.
La imputación múltiple se ha utilizado únicamente en el campo de los datos de sección cruzada, y esta Tesis pretende extender su aplicación al campo de la series temporales financieras. Para tal fin, se estudian las técnicas que sobre las que se fundamentan los métodos MCMC, la inferencia de Rubin y los modelos heteroscedásticos condicionados. El resultado es la imputación mediante separación, que consigue adaptar la técnica de imputación múltiple a las series temporales financieras mediante la combinación de un filtro asimétrico, un método Bootstrap y el conocido algoritmo GibbsSampling. La Tesis se extiende con un librería programada en lenguaje R, de próxima incorporación en el cuerpo de librerías contribuidas en el portal oficial del citado lenguaje, que implementa el método propuesto. / When a database contains missing values, the forthcoming analysis becomes impossible until one decides how to deal with them. That is the reason why the literature has developed different ways to solve problems associated with NA values. The first methods of this specific literature were regression-based (Yates [1933]), but later more sophisticated algorithms were available (EM algorithm). Rubin [1987] makes a deep analysis on the topic and develops Multiple Imputation, a Monte Carlo technique in which the missing values are replaced by m>1 simulated versions, where m is typically small (e.g. 3-10). In Rubin's method for `repeated imputation' inference, each of the simulated complete datasets is analyzed by standard methods, and the results are combined to produce estimates and confidence intervals that incorporate missing-data uncertainty. Multiple Imputation has been widely used in cross section studies but not in time series. This doctoral thesis aims to extend Multiple Imputation to longitudinal studies, specifically to financial time series. To do so, we propose a method based on an asymmetric filter which splits the original time series in conditional variance and innovations. This procedure allows us to generate plausible values combining the algorithms Gibbs Sampling and Approximate Bayesian Bootstrap. The validity of the proposed method is discussed through extensive tests on different financial time series (firms and market indices). The analysis of empirical tests displays that, after imputing the data, they maintain its individual characteristics. Furthermore, results exhibit high precision in the shape parameter of the conditional distribution of returns, and densities of both conditional variance and innovations.
|
10 |
Machine learning methods for the analysis of liquid chromatography-mass spectrometry datasets in metabolomicsFernández Albert, Francesc 30 October 2014 (has links)
Tesi per compendi de publicacions / Liquid Chromatography-Mass Spectrometry (LC/MS) instruments are widely used in Metabolomics. To analyse their output, it is necessary to use computational tools and algorithms to extract meaningful biological information. The main goal of this thesis is to provide with new computational methods and tools to process and analyse LC/MS datasets in a metabolomic context. A total of 4 tools and methods were developed in the context of this thesis.
First, it was developed a new method to correct possible non-linear drift effects in the retention time of the LC/MS data in Metabolomics, and it was coded as an R package called HCor. This method takes advantage of the retention time drift correlation found in typical LC/MS data, in which there are chromatographic regions in which their retention time drift is consistently different than other regions. Our method makes the hypothesis that this correlation structure is monotonous in the retention time and fits a non-linear model to remove the unwanted drift from the dataset. This method was found to perform especially well on datasets suffering from large drift effects when compared to other state-of-the art algorithms.
Second, it was implemented and developed a new method to solve known issues of peak intensity drifts in metabolomics datasets. This method is based on a two-step approach in which are corrected possible intensity drift effects by modelling the drift and then the data is normalised using the median of the resulting dataset. The drift was modelled using a Common Principal Components Analysis decomposition on the Quality Control classes and taking one, two or three Common Principal Components to model the drift space. This method was compared to four other drift correction and normalisation methods. The two-step method was shown to perform a better intensity drift removal than all the other methods. All the tested methods including the two-step method were coded as an R package called intCor and it is publicly available.
Third, a new processing step in the LC/MS data analysis workflow was proposed. In general, when LC/MS instruments are used in a metabolomic context, a metabolite may give a set of peaks as an output. However, the general approach is to consider each peak as a variable in the machine learning algorithms and statistical tests despite the important correlation structure found between those peaks coming from the same source metabolite. It was developed an strategy called peak aggregation techniques, that allow to extract a measure for each metabolite considering the intensity values of the peaks coming from this metabolite across the samples in study. If the peak aggregation techniques are applied on each metabolite, the result is a transformed dataset in which the variables are no longer the peaks but the metabolites. 4 different peak aggregation techniques were defined and, running a repeated random sub-sampling cross-validation stage, it was shown that the predictive power of the data was improved when the peak aggregation techniques were used regardless of the technique used.
Fourth, a computational tool to perform end-to-end analysis called MAIT was developed and coded under the R environment. The MAIT package is highly modular and programmable which ease replacing existing modules for user-created modules and allow the users to perform their personalised LC/MS data analysis workflows. By default, MAIT takes the raw output files from an LC/MS instrument as an input and, by applying a set of functions, gives a metabolite identification table as a result. It also gives a set of figures and tables to allow for a detailed analysis of the metabolomic data. MAIT even accepts external peak data as an input. Therefore, the user can insert peak table obtained by any other available tool and MAIT can still perform all its other capabilities on this dataset like a classification or mining the Human Metabolome Dataset which is included in the package.
|
Page generated in 0.1537 seconds