• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 38
  • 18
  • 8
  • 1
  • Tagged with
  • 65
  • 65
  • 23
  • 22
  • 18
  • 10
  • 10
  • 8
  • 8
  • 8
  • 8
  • 7
  • 6
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Análisis conjunto de múltiples tablas de datos mixtos mediante PLS

González Rojas, Victor Manuel 28 November 2014 (has links)
The fundamental content of this thesis corresponds to the development of the GNM-NIPALIS, GNM-PLS2 and GNM-RGCCA methods, used to quantify qualitative variables parting from the first k components given by the appropriate methods in the analysis of J matrices of mixed data. These methods denominated GNM-PLS (General Non Metric Partial Least Squares) are an extension of the NM-PLS methods that only take the first principal component in the quantification function. The transformation of the qualitative variables is done through optimization processes, usually maximizing functions of covariance or correlation, taking advantage of the flexibility of the PLS algorithms and keeping the properties of group belonging and order if it exists; The metric variables are keep their original state as well, excepting standardization. GNM-NIPALS has been created for the purpose of treating one (J = 1) mixed data matrix through the quantification via ACP type reconstruction of the qualitative variables parting from a k components aggregated function. GNM-PLS2 relates two (J = 2) mixed data sets Y~X through PLS regression, quantifying the qualitative variables of a space with the first H PLS components aggregated function of the other space, obtained through cross validation under PLS2 regression. When the endogenous matrix Y contains only one answer variable the method is denominated GNM-PLS1. Finally, in order to analyze more than two blocks (J = 2) of mixed data Y~X1+...+XJ through their latent variables (LV) the GNM-RGCCA was created, based on the RGCCA (Regularized Generalized Canonical Correlation Analysis) method, that modifies the PLS-PM algorithm implementing the new mode A and specifies the covariance or correlation maximization functions related to the process. The quantification of the qualitative variables on each Xj block is done through the inner Zj = Σj ej Yj function, which has J dimension due to the aggregation of the outer Yj estimations. Zj, as well as Yj estimate the ξj component associated to the j-th block. / El contenido fundamental de esta tesis corresponde al desarrollo de los métodos GNM-NIPALS, GNM-PLS2 y GNM-RGCCA para la cuantificación de las variables cualitativas a partir de las primeras k componentes proporcionadas por los métodos apropiados en el análisis de J matrices de datos mixtos. Estos métodos denominados GNM-PLS (General Non Metric Partial Least Squares) son una extensión de los métodos NM-PLS que toman sólo la primera componente principal en la función de cuantificación. La trasformación de las variables cualitativas se lleva a cabo mediante procesos de optimización maximizando generalmente funciones de covarianza o correlación, aprovechando la flexibilidad de los algoritmos PLS y conservando las propiedades de pertenencia grupal y orden si existe; así mismo se conservan las variables métricas en su estado original excepto por estandarización. GNM-NIPALS ha sido creado para el tratamiento de una (J=1) matriz de datos mixtos mediante la cuantificación vía reconstitución tipo ACP de las variables cualitativas a partir de una función agregada de k componentes. GNM-PLS2 relaciona dos (J=2) conjuntos de datos mixtos Y~X mediante regresión PLS, cuantificando las variables cualitativas de un espacio con la función agregada de las primeras H componentes PLS del otro espacio, obtenidas por validación cruzada bajo regresión PLS2. Cuando la matriz endógena Y contiene sólo una variable de respuesta el método se denomina GNM-PLS1. Finalmente para el análisis de más de dos bloques (J>2) de datos mixtos Y~X1+...+XJ a través de sus variables latentes (LV) se implementa el método NM-RGCCA basado en el método RGCCA (Regularized Generalized Canonical Correlation Analysis) que modifica el algoritmo PLS-PM implementando el nuevo modo A y especifica las funciones de maximización de covarianzas o correlaciones asociadas al proceso. La cuantificación de las variables cualitativas en cada bloque Xj se realiza mediante la función inner Zj de dimensión J debido a la agregación de las estimaciones outer Yj. Tanto Zj como Yj estiman la componente ξj asociad al j-ésimo bloque.
2

Modelling with heterogeneity

Lamberti, Giuseppe 22 June 2015 (has links)
When collecting survey data for a specific study it is usual to have some background information, in the form for example, of socio-demographic variables. In our context, these variables may be useful in identifying potential sources of heterogeneity. Resolving the heterogeneity may mean to perform distinct analyses based on the main variables for distinct and homogeneous segments of the data, defined in terms of the segmentation variables. In 2009 Gastón Sánchez proposed an algorithm PATHMOX with the aim to automatic detecting heterogeneous segments within the PLS-PM methodology. This technique, based on recursive partitioning, produces a segmentation tree with a distinct path models in each node. At each node PATHMOX searches among all splits based on the segmentation variables and chooses the one resulting in the maximal difference between the PLS-PM models in the children nodes. Starting from the work of Sanchez the purpose of the thesis is to extend PATHMOX in the following points: 1. Extension to the PATHMOX approach to detect which constructs differentiate segments. The PATHMOX approach uses a F-global test to identify the best split in heterogeneous segments. Following the same approach it is possible to extend the testing to find which the endogenous constructs are and which are the relationships between constructs responsible of the difference between the segments. 2. Extension to the PATHMOX approach to deal with the factor invariance problem. Originally PATHMOX adapted the estimation of constructs to each detected segment, that is, once a split is performed the PLS-PM model is recalculated in every child. This leads to the problem of invariance: if the the estimation of the latent variables are recalculated in each terminal node of the tree, we cannot be sure to compare the distinct behavior of two individuals who belong to two different terminal nodes. To solve this problem we will propose a invariance test based on the X^2 distribution, where the goal of to test whether the measurement models of each terminal node can be considered equal or not among them. 3. Extension to the PATHMOX approach to overcome the parametric hypothesis of F-test. One critic to the PATHMOX approach, applied in the context of partial least square path modeling, is that it utilizes a parametric test based on the hypothesis that the residuals have a normal distribution to compare two structural models. PLS-PM in general, is utilized to model data that come from survey analysis. These data are characterized by an asymmetric distribution. This situation produces skewness in the distribution of data. As we know, PLS-PM methodology, is based in the absence of assumptions about the distribution of data. Hence, the parametric F test used in PATHMOX may represent a limit of the methodology. To overcome this limit, we will extend the test in the context of LAD robust regression. 4. Generalization of PATHMOX algorithm to any type of modeling methodology. The PATHMOX algorithm has been proposed to analyze heterogeneity in the context of the partial least square path modeling. However, this algorithm can be applied to many other kind of methodologies according to the appropriate split criterion. To generalize PATHMOX we will consider three distinct scenarios: Regression analysis (OLS, LAD, GLM regression) and Principal Component Analysis. 5. Implement the methodology, using the R software as specific library. / Cuando se realiza un estudio científico, el análisis hace énfasis sobre las variables recogidas para responder a las preguntas que se quieren hallar durante el mismo estudio. Sin embargo en muchos análisis se suele recoger más variables, como por ejemplo variables socio demográfico: sexo, status social, edad. Estas variables son conocidas como variables de segmentación, ya que pueden ser útiles en la identificación de posibles fuentes de heterogeneidad. Analizar la heterogeneidad quiere decir realizar distintas análisis para distintos colectivos homogéneos definidos a partir de las variables de segmentación. Muchas veces, si hay algún conocimiento previo, esta heterogeneidad puede ser controlada mediante la definición de segmentos a priori. Sin embargo no siempre se dispone de conocimiento suficiente para definir a priori los grupos. Por otro lado muchas variables de segmentación podrían ser disponibles para analizar la heterogeneidad de acuerdo con un apropiado algoritmo. Un algoritmo desarrollado con este objetivo fue PATHMOX, propuesto por Gastón Sanchez en 2009. Esta técnica, utilizando particiones recursivas, produce un árbol de segmentación con distintos modelos asociados a cada nodo. Para cada nodo, PATHMOX busca entre todas las variables de segmentación aquella que produce una diferencia máxima entre los modelos de los nodos hijos. Tomando como punto de partida el trabajo de Gastón Sanchez esta tesis se propone: 1. Extender PATHMOX para identificar los constructos responsables de la diferencias. PATHMOX nos permite detectar distintos modelos en un data-set sin identificar grupos a priori. Sin embargo, PATHMOX es un criterio global. Pera identificar las distintas ecuaciones y coeficientes responsables de las particiones, introduciremos los test F-block y F-coefficient. 2. Extender PATHMOX para solucionar el problema de la invariancia. En el contexto del PLS-PM (Partial Least Squares Path Modeling), PATHMOX funciona fijando las relaciones causales entre las variables latentes y el objetivo es identificar modelos con coeficientes path lo más posible distintos sin poner ninguna restricción sobre el modelo de medida. Por lo tanto, cada vez que una diferencia significativa es identificada, y dos nodos hijos vienen definidos, las relaciones causales entre las variables latentes son las mismas en ambos modelos "hijos", pero la estimación de cada variable latente se recalcula y no podemos estar seguros de comparar el comportamiento de dos individuos distintos que pertenecen a dos nodos diferentes. Para resolver este problema propondremos un test de invariancia basado en la distribución X^2, donde el objetivo del test es verificar si los modelos de cada nodo terminales se puede considerar igual o no entre ellos. 3. Extender PATHMOX para superar la hipótesis paramétrica del F-test. Una crítica a PATHMOX, aplicadas en el contexto del PLS-PM, es que el algoritmo utiliza una prueba paramétrica, basada en la hipótesis de que los residuos tienen una distribución normal, para comparar dos modelos estructurales. Para superar este límite, extenderemos el test para comparar dos regresiones robustas LAD en el contexto del PLS. 4. La generalización del algoritmo PATHMOX a cualquier tipo de metodología. El algoritmo PATHMOX ha sido propuesto para analizar la heterogeneidad en el contexto PLS-PM. Sin embargo, este algoritmo se puede aplicar a muchos otros tipos de metodologías de acuerdo con un apropiado criterio de partición. Para generalizar PATHMOX consideraremos tres escenarios distintos: modelos de regresión (modelos OLS, LAD, GLM) y el análisis en componentes principales. 5. Implementar la metodología, utilizando el software R como librería específica.
3

Interval-censored semi-competing risks data: a novel approach for modelling bladder cancer

Porta Bleda, Núria 27 July 2010 (has links)
Aquesta tesi tracta sobre tècniques d'anàlisi de supervivència en situacions amb múltiples esdeveniments i patrons complexes de censura. Proposem una nova metodologia per tractar la situació de riscos semi-competitius quan les dades estan censurades en un interval. La motivació del treball neix de la nostra col·laboració amb l'Estudi Espanyol del Càncer de Bufeta (SBC/EPICURO), el més gran estudi sobre càncer de bufeta realitzat fins ara a l'Estat Espanyol. La nostra contribució en el projecte es centra en la modelització i identificació de factors pronòstics de l'evolució de la malaltia.L'evolució de malalties complexes, com el càncer o la infecció VIH, es caracteritza per la ocurrència de múltiples esdeveniments en el mateix pacient: per exemple, la recaiguda de la malaltia o la mort. Aquests esdeveniments poden ser finals, quan el seguiment del pacient s'atura després de l'esdeveniment, o bé intermedis, quan l'individu continua sota observació. La presència d'esdeveniments finals complica l'anàlisi dels intermedis ja que n'impedeix la seva completa observació, induint una possible censura depenent.En aquest context, es requereixen metodologies apropiades. Els següents mètodes són emprats: riscos competitius, models multiestat i riscos semi-competitius. A resultes de l'aplicació de mètodes per riscos competitius i models multi-estat, proposem dues aportacions rellevants al coneixement de la malaltia: (1) la caracterització dels pacients amb un alt risc de progressió com a primer esdeveniment després de la diagnosi, i (2) la construcció d'un model pronòstic dinàmic per al risc de progressió.La situació de riscos competitius es dóna quan volem descriure el temps fins al primer entre K possibles esdeveniments, juntament amb un indicador del tipus d'esdeveniment observat. En l'estudi EPICURO, és rellevant estudiar el temps fins al primer entre recidiva, progressió o mort. La caracterització d'aquest primer esdeveniment permetria seleccionar el millor tractament d'acord amb el perfil de risc basal del pacient.Els models multi-estat descriuen les diferents evolucions que la malaltia pot seguir, establint relacions entre els esdeveniments d'interès: per exemple, un pacient pot experimentar una recidiva del tumor primari, i després morir, o bé pot morir sense haver tingut cap recaiguda de la malaltia. Una característica interessant d'aquests models és que permeten fer prediccions del risc de futurs esdeveniments per a un pacient, d'acord amb la història que hagi pogut tenir fins aquell moment. En el cas de càncer de bufeta podrem avaluar la influència que té en el risc de progressar haver patit o no una recidiva prèvia.Un cas especial de model multi-estat és aquell que conté un esdeveniment intermedi E1, i un esdeveniment final, E2. Siguin T1 i T2 els temps fins aquests esdeveniments, respectivament. Ni l'anàlisi de riscos competitius ni els models multi-estat permeten adreçar l'estudi de la distribució marginal de T1. En efecte, l'anàlisi de riscos competitius tracta amb la distribució del mínim entre els dostemps, T=min(T1,T2), mentre que els models multi-estat es centren en la distribució condicional de T2|T1, és a dir, en com la ocurrència de E1 modifica el risc de E2. En aquest cas, la distribució de T1 no és identificable a partir de les dades observades. La situació abans descrita, on la ocurrència d'un esdeveniment final impedeix l'observació de l'esdeveniment intermedi és coneguda com a riscos semi-competitius (Fine et al., 2001). L'estratègia d'aquests autors passà per assumir un model per a la distribució conjunta (T1, T2), i aleshores recuperar la distribució marginal de T1 derivada d'aquest model.Proposem una nova metodologia per tractar amb riscos semi-competitius quan el temps fins l'esdeveniment intermedi, T1, està censurat en un interval. En molts estudis mèdics longitudinals, la ocurrència de l'esdeveniment d'interès s'avalua en visites periòdiques del pacient, i per tant, T1 és desconegut, però es sap que pertany al interval comprès entre els temps de dues visites consecutives. Els mètodes per riscos semi-competitius en el context usual de censura per la dreta no són vàlids en aquest cas i és necessària una nova aproximació. En aquest treball ampliem la metodología semi-paramètrica proposada per Fine et al. (2001), que assumeix un model de còpula de Clayton (1978) per a descriure la dependència entre T1 i T2. Assumint el mateix model, desenvolupem un algoritme iteratiu que estima conjuntament el paràmetre d'associació del model de còpula, així com la funció de supervivència del temps intermedi T1.Fine, J. P.; Jiang, H. & Chappell, R. (2001), 'On Semi-Competing Risks Data', Biometrika 88(4), 907--919.Clayton, D. G. (1978), 'A Model for Association in Bivariate Life Tables and Its Application in Epidemiological Studies of Familial. Tendency in Chronic Disease Incidence', Biometrika 65(1), 141--151. / La presente tesis trata sobre técnicas de análisis de supervivencia en situaciones con múltiples eventos y patrones complejos de censura. Proponemos una nueva metodología para tratar el problema de riesgos semi-competitivos cuando los datos están censurados en un intervalo. La motivación de este trabajo nace de nuestra colaboración con el estudio Español de Cáncer de Vejiga (SBC/EPICURO), el más grande estudio sobre cáncer de vejiga realizado en España hasta el momento. Nuestra participación en el mismo se centra en la modelización e identificación de factores pronósticos en el curso de la enfermedad.El curso de enfermedades complejas tales como el cáncer o la infección por VIH, se caracteriza por la ocurrencia de múltiples eventos en el mismo paciente, como por ejemplo la recaída o la muerte. Estos eventos pueden ser finales, cuando el seguimiento del paciente termina con el evento, o bien intermedios, cuando el individuo sigue bajo observación. La presencia de eventos finales complica el análisis de los eventos intermedios, ya que impiden su completa observación, induciendo una posible censura dependiente.En este contexto, se requieren metodologías apropiadas. Se utilizan los siguientes métodos: riesgos competitivos, modelos multiestado y riesgos semi-competitivos. De la aplicación de métodos para riesgos competitivos y modelos multi-estado resultan dos aportaciones relevantes sobre el conocimiento de la enfermedad: (1) la caracterización de los pacientes con un alto riesgo de progresión como primer evento después del diagnóstico, y (2) la construcción de un modelo pronóstico y dinámico para el riesgo de progresión.El problema de riesgos competitivos aparece cuando queremos describir el tiempo hasta el primero de K posibles eventos, junto con un indicador del tipo de evento observado. En el estudio SBC/EPICURO es relevante estudiar el tiempo hasta el primero entre recidiva, progresión o muerte. La caracterización de este primer evento permitiría seleccionar el tratamiento más adecuado de acuerdo con el perfil de riesgo basal del paciente.Los modelos multi-estado describen las diferentes tipologías que el curso de la enfermedad puede seguir, estableciendo relaciones entre los eventos de interés. Por ejemplo, un paciente puede experimentar una recidiva y después morir, o bien puede morir sin haber tenido recaída alguna. El potencial interesante de los modelos multi-estado es que permiten realizar predicciones sobre el riesgo de futuros eventos dada la historia del paciente hasta ese momento. En el caso del cáncer de vejiga, podremos evaluar la influencia que tiene en el riesgo de progresar el haber tenido o no una recidiva previa.Un caso especial de modelo multi-estado es el que contiene un evento intermedio E1 y uno final, E2. Sean T1 y T2 los tiempos hasta tales eventos, respectivamente. Ni el análisis de riesgos competitivos ni los modelos multi-estado permiten estudiar la distribución marginal de T1. En efecto, el análisis de riesgos competitivos trata con la distribución del mínimo entre los dos tiempos, T=min(T1,T2), mientras que los modelos multi-estado se centran en la distribución condicional de T2 dado T1, T2|T1, en cómo la ocurrencia de E1 modifica el riesgo de E2. En ambos casos, la distribución de T1 no es identificable a partir de los datos observados.La situación anteriormente descrita donde un evento final impide la observación de un evento intermedio se conoce como riesgos semi-competitivos (Fine et al. 2001). La estrategia de estos autores asume un modelo para la distribución conjunta (T1,T2) para así recuperar la distribución de T1 derivada de ese modelo.Proponemos una nueva metodología para tratar con riesgos semi-competitivos cuando el tiempo hasta el evento intermedio, T1, esta censurado en un intervalo. En muchos estudios médicos longitudinales, la ocurrencia del evento de interés se evalúa en visitas periódicas al paciente, por lo que T1 es desconocido, aunque se conoce que pertenece al intervalo comprendido entre los tiempos de dos visitas consecutivas. Los métodos para riesgos semi-competitivos en el contexto usual de censura por la derecha no son válidos en este caso y se requiere una nueva aproximación. En este trabajo ampliamos la metodología semi-paramétrica propuesta por Fine et al. (2001), que asume una cópula de Clayton (1978) para describir la dependencia entre T1 y T2. Bajo el mismo modelo de asociación, desarrollamos un algoritmo iterativo que estima conjuntamente el parámetro de asociación del modelo de cópula, así como la función de supervivencia del tiempo al evento intermedio T1.Fine, J. P.; Jiang, H. & Chappell, R. (2001), 'On Semi-Competing Risks Data', Biometrika 88(4), 907--919. Clayton, D. G. (1978), 'A Model for Association in Bivariate Life Tables and Its Application in Epidemiological Studies of Familial. Tendency in Chronic Disease Incidence', Biometrika 65(1), 141--151.
4

A principal component method to analyse disconnected frequency tables by means of contextual information

Kostov, Belchin Adriyanov 10 July 2015 (has links)
This thesis arises from the need to deal with open-ended questions answered in different languages in international surveys. For every language, the free answers are encoded in the form of a individuals x words lexical table. An important feature is that the lexical tables, from one language to the other, have neither the row-individuals nor the column-words in common. However, the global analysis and the comparison of the different samples require to place all the words, in any language, in the same space. As a solution, we propose to integrate the answers to the closed questions into the analysis, where the contextual variables the same for all the samples. This integration plays an essential role by permitting a global analysis. Thus, for every language, we have one lexical table and one categorical/quantitative table, a structure that we call "coupled tables". The global complex data structure is a sequence of "coupled tables". To analyse these data, we adopt a Correspondence Analysis-like approach. We propose a method which combines: Multiple Factor Analysis for Contingency Tables, in order to balance the influence of the sets of words in the global analysis and Correspondence Analysis on a Generalised Aggregated Lexical Table, which places all the words in the same space. The new method is called Multiple Factor Analysis on Generalised Aggregated Lexical Table. The results in an application show that the method provides outputs that are easy to interpret. They allow for studying the similarities/dissimilarities between the words including when they belong to different languages as far as they are associated in a similar/different way to the contextual variables. The methodology can be applied in other fields provided that the data are coded in a sequence of coupled tables. / Esta tesis surge de la necesidad de tratar las preguntas abiertas respondidas en diferentes idiomas en las encuestas internacionales. En cada uno de los idiomas, las respuestas libres se codifican en la forma de una tabla léxica de individuos x palabras. Una característica importante de estas tablas léxicas es que, de un idioma a otro, no tienen ni las filas-individuos ni las columnas-palabras en común. Sin embargo, el análisis global y la comparación de las diferentes muestras requiere proyectar todas las palabras del cualquier idioma en un mismo espacio. Como solución, se propone integrar las respuestas a las preguntas cerradas en el análisis, donde las variables contextuales son las mismas para todas las muestras. Esta integración juega un papel esencial al permitir un análisis global de los datos. Por lo tanto, para cada idioma, tenemos una tabla léxica y una tabla contextual con variables categóricas o cuantitativas, la estructura que llamamos "tablas acopladas". Y la estructura global compleja se llama secuencia de "tablas acopladas". Para analizar estos datos, adoptamos un enfoque similar a lo de análisis de correspondencias. Proponemos un método que combina: análisis factorial múltiple para las tablas de contingencia con el objetivo de equilibrar la influencia de los grupos de palabras en el análisis global y análisis de correspondencias en las tablas léxicas agregadas generalizadas, lo que permite proyectar todas las palabras en un mismo espacio. El nuevo método se llama Análisis Factorial Múltiple en las tablas léxicas agregadas generalizadas. Aplicación sobre una encuesta de satisfacción muestra que el método proporciona resultados que son fáciles de interpretar. Estos resultados permiten estudiar las similitudes/diferencias entre las palabras, incluyendo cuando pertenecen a diferentes idiomas, en función de su asociación con las variables contextuales. La metodología se puede aplicar en otros campos siempre y cuando los datos se codifiquen en una secuencia de "tablas acopladas".
5

Particle filtering estimation for linear and nonlinear state-space models

Acosta Argueta, Lesly María 29 November 2013 (has links)
The sequential estimation of the states (filtering) and the corresponding simultaneous estimation of the states and fixed parameters of a dynamic state-space model, being linear or not, is an important probleminmany fields of research, such as in the area of finance. The main objective of this research is to estimate sequ entially and efficiently –from a Bayesian perspective via the particle filtering methodology– the states and/or the fixed parameters of a nonstandard dynamic state-spacemodel: one that is possibly nonlinear, non-stationary or non-Gaussian. The present thesis consists of seven chapters and is structured into two parts. Chapter 1 introduces basic concepts, themotivation, the purpose, and the outline of the thesis. Chapters 2-4, the first part of the thesis, focus on the estimation of the states. Chapter 2 provides a comprehensive review of themost classic algorithms (non-simulation based: KF, EKF, and UKF; and simulation based: SIS, SIR, ASIR, EPF, and UPF1) used for filtering solely the states of a dynamic statespacemodel. All these filters scattered in the literature are not only described in detail, but also placed in a unified notation for the sake of consistency, readability and comparability. Chapters 3 and 4 confirm the efficiency of the well-established particle filtering methodology, via extensive Monte Carlo (MC) studies, when estimating only the latent states for a dynamic state-space model, being linear or not. Also, complementary MC studies are conducted to analyze some relevant issues within the adopted approach, such as the degeneracy problem, the resampling strategy, or the possible impact on estimation of the number of particles used and the time series length. Chapter 3 specifically illustrates the performance of the particle filtering methodology in a linear and Gaussian context, using the exact Kalman filter as a benchmark. The performance of the four studied particle filter variants (SIR, SIRopt, ASIR, KPF, the latter being a special case of the EPF algorithm) is assessed using two apparently simple, but important time series processes: the so-called Local Level Model (LLM) and the AR(1) plus noise model, which are non-stationary and stationary, respectively. An exhaustive study on the effect of the signal-to-noise ratio (SNR) over the quality of the estimation is additionally performed. ComplementaryMC studies are conducted to assess the degree of degeneracy and the possible effect of increasing the number of particles and the time series length. Chapter 4 assesses and illustrates the performance of the particle filtering methodology in a nonlinear context. Specifically, a synthetic nonlinear, non Gaussian and non-stationary state space model taken from literature is used to illustrate the performance of the four competing particle filters under study (SIR, ASIR, EPF, UPF) in contraposition to two well-known non-simulation based filters (EKF, UKF). In this chapter, the residual and stratified resampling schemes are compared and the effect of increasing the number of particles is addressed. In the second part (Chapters 5 and 6), extensive MC studies are carried out, but the main goal is the simultaneous estimation of states and fixed model parameters for chosen non-standard dynamic models. This area of research is still very active and it is within this area where this thesis contributes themost. Chapter 5 provides a partial survey of particle filter variants used to conduct the simultaneous estimation of states and fixed parameters. Such filters are an extension of those previously adopted for estimating solely the states. Additionally, a MC study is carried out to estimate the state (level) and the two fixed variance parameters of the non-stationary local level model; we use four particle filter variants (LW, SIRJ, SIRoptJ, KPFJ), six typical settings of the SNR and two settings for the discount factor needed in the jittering step. In this chapter, the SIRJ particle filter variant is proposed as an alternative to the well-established filter of Liu West (LW PF). The combined use of a Kalman-based proposal distribution and a jittering step is proposed and explored, which gives rise to the particle filter variant called: the Kalman Particle Filter plus Jittering (KPFJ). Chapter 6 focuses on estimating the states and three fixed parameters of the non-standard basic stochastic volatility model known as stochastic autoregressive volatility model of order one: SARV(1). After an introduction and detailed description of the stylized features of financial time series, the estimation ability of two competing particle filter variants (SIRJ vs LW(Liu andWest)) is shown empirically using simulated data. The chapter ends with an application to real data sets from the financial area: the Spanish IBEX 35 returns index and the Europe Brent Spot prices (in dollars). The contribution in chapters 5 and 6 is to propose new variants of particle filters, such as the KPFJ, the SIRJ, and the SIRoptJ (a special case of the SIRJ that uses an optimal proposal distribution) that have developed along this work. The thesis also suggests that the so-called EPFJ (Extended Particle Filter with Jittering) and the UPFJ (Unscented Particle Filter with Jittering) algorithms could be reasonable choices when dealingwith highly nonlinearmodels. In this part, also relevant issueswithin the particle filteringmethodology are discussed, such as the potential impact on estimation of the discount factor parameter, the time series length, and the number of particles used. Throughout this work, pseudo-codes are written for all filters studied and are implemented in RLanguage. The reported findings are obtained as the result of extensive MC studies, considering a variety of case-scenarios described in the thesis. The intrinsic characteristics of the model at hand guided -according to suitability– the choice of filters in each specific situation. The comparison of filters is based on the RMSE, the elapsed CPU-time and the degree of degeneracy. Finally, Chapter 7 includes the discussion, contributions, and future lines of research. Some complementary theoretical and practical aspects are presented in the appendix. / L’estimació seqüencial dels estats (filtratge) i la corresponent estimació simultània dels estats i els paràmetres fixos d’unmodel dinàmic formulat en forma d’espai d’estat –sigui lineal o no– constitueix un problema de rellevada importància enmolts camps, com ser a l’àrea de finances. L’objectiu principal d’aquesta tesi és el d’estimar seqüencialment i de manera eficient –des d’un punt de vista bayesià i usant lametodologia de filtratge de partícules– els estats i/o els paràmetres fixos d’unmodel d’espai d’estat dinàmic no estàndard: possiblement no lineal, no gaussià o no estacionari. El present treball consisteix de 7 capítols i s’organitza en dues parts. El Capítol 1 hi introdueix conceptes bàsics, lamotivació, el propòsit i l’estructura de la tesi. La primera part d’aquesta tesi (capítols 2 a 4) se centra únicament en l’estimació dels estats. El Capítol 2 presenta una revisió exhaustiva dels algorismes més clàssics no basats en simulacions (KF, EKF, UKF2) i els basats en simulacions (SIS, SIR, ASIR, EPF, UPF). Per a aquests filtres, tots esmentats en la literatura, amés de descriure’ls detalladament, s’ha unificat la notació amb l’objectiu que aquesta sigui consistent i comparable entre els diferents algorismes implementats al llarg d’aquest treball. Els capítols 3 i 4 se centren en la realització d’estudis Monte Carlo (MC) extensos que confirmen l’eficiència de la metodologia de filtratge de partícules per estimar els estats latents d’un procés dinàmic formulat en forma d’espai d’estat, sigui lineal o no. Alguns estudis MC complementaris es duen a terme per avaluar diferents aspectes de la metodologia de filtratge de partícules, com ser el problema de la degeneració, l’elecció de l’estratègia de remostreig, el nombre de partícules usades o la grandària de la sèrie temporal. Específicament, el Capítol 3 il·lustra el comportament de la metodologia de filtratge de partícules en un context lineal i gaussià en comparació de l’òptim i exacte filtre de Kalman. La capacitat de filtratge de les quatre variants de filtre de partícules estudiades (SIR, SIRopt, ASIR, KPF; l’últim sent un cas especial de l’algorisme EPF) es va avaluar sobre la base de dos processos de sèries temporals aparentment simples però importants: els anomenats Local Level Model (LLM) i el AR (1) plus noise, que són no estacionari i estacionari, respectivament. Aquest capítol estudia en profunditat temes rellevants dins de l’enfocament adoptat, coml’impacte en l’estimació de la relació entre el senyal i el soroll (SNR: signal-to-noise-ratio, en aquesta tesi), de la longitud de la sèrie temporal i del nombre de partícules. El Capítol 4 avalua i il·lustra el comportament de la metodologia de filtratge de partícules en un context no lineal. En concret, s’utilitza un model d’espai d’estat no lineal, no gaussià i no estacionari pres de la literatura per il·lustrar el comportament de quatre filtres de partícules (SIR, ASIR, EPF, UPF) en contraposició a dos filtres no basats en simulació ben coneguts (EKF, UKF). Aquí es comparen els esquemes de remostreig residual i estratificat i s’avalua l’efecte d’augmentar el nombre de partícules. A la segona part (capítols 5 i 6), es duen a terme també estudis MC extensos, però ara l’objectiu principal és l’estimació simultània dels estats i paràmetres fixos de certsmodels seleccionats. Aquesta àrea de recerca segueix sentmolt activa i és on aquesta tesi hi contribueixmés. El Capítol 5 proveeix una revisió parcial dels mètodes per dur a terme l’estimació simultània dels estats i paràmetres fixos a través de la metodologia de filtratge de partícules. Aquests filtres són una extensió d’aquells adoptats anteriorment només per estimar els estats. Aquí es realitza un estudi MC per estimar l’estat (nivell) i els dos paràmetres de variància del model LLM no estacionari; s’utilitzen quatre variants (LW, SIRJ, SIRoptJ, KPFJ) de filtre de partícules, sis escenaris típics del SNR i dos escenaris per a l’anomenat factor de descompte necessari en el pas de diversificació. En aquest capítol, es proposa la variant de filtre de partícules SIRJ (Sample Importance Resampling with Jittering) com a alternativa al filtre de referència de Liu iWest (LWPF). També es proposa i explora l’ús combinat d’una distribució d’importància basada en el filtre de Kalman i un pas de diversificació (jittering) que dóna lloc a la variant del filtre de partícules anomenada Kalman Particle Filteringwith Jittering (KPFJ). El Capítol 6 se centra en l’estimació dels estats i dels paràmetres fixos delmodel bàsic no estàndard de volatilitat estocàstica denominat Stochastic autoregressive model of order one: SARV (1). Després d’una introducció i descripció detallada de les característiques pròpies de sèries temporals financeres, es demostra mitjançant estudis MC la capacitat d’estimació de dues variants de filtre de partícules (SIRJ vs. LW(Liu iWest)) utilitzant dades simulades. El capítol acaba amb una aplicació a dos conjunts de dades reals dins de l’àrea financera: l’índex de rendiments espanyol IBEX 35 i els preus al comptat (en dòlars) del Brent europeu. La contribució en els capítols 5 i 6 consisteix en proposar noves variants de filtres de partícules, compoden ser el KPFJ, el SIRJ i el SIRoptJ (un cas especial de l’algorisme SIRJ utilitzant una distribució d’importància òptima) que s’han desenvolupat al llarg d’aquest treball. També se suggereix que els anomenats filtres de partícules EPFJ (Extended Particle Filter with Jittering) i UPFJ (Unscented Particle Filter with Jittering) podrien ser opcions raonables quan es tracta de models altament no lineals; el KPFJ sent un cas especial de l’algorisme EPFJ. En aquesta part, també es tracten aspectes rellevants dins de la metodologia de filtratge de partícules, com ser l’impacte potencial en l’estimació de la longitud de la sèrie temporal, el paràmetre de factor de descompte i el nombre de partícules. Al llarg d’aquest treball s’han escrit (i implementat en el llenguatge R) els pseudo-codis per a tots els filtres estudiats. Els resultats presentats s’obtenenmitjançant simulacionsMonte Carlo (MC) extenses, tenint en compte variats escenaris descrits en la tesi. Les característiques intrínseques del model baix estudi van guiar l’elecció dels filtres a comparar en cada situació específica. Amés, la comparació dels filtres es basa en el RMSE (RootMean Square Error), el temps de CPU i el grau de degeneració. Finalment, el Capítol 7 presenta la discussió, les contribucions i les línies futures de recerca. Alguns aspectes teòrics i pràctics complementaris es presenten en els apèndixs. / La estimación secuencial de los estados (filtrado) y la correspondiente estimación simultánea de los estados y los parámetros fijos de un modelo dinámico formulado en forma de espacio de estado –sea lineal o no– constituye un problema de relevada importancia enmuchos campos, como ser en el área de finanzas. El objetivo principal de esta tesis es el de estimar secuencialmente y de manera eficiente –desde un punto de vista bayesiano y usando la metodología de filtrado de partículas– los estados y/o los parámetros fijos de un modelo de espacio de estado dinámico no estándar: posiblemente no lineal, no gaussiano o no estacionario. El presente trabajo consta de 7 capítulos y se organiza en dos partes. El Capítulo 1 introduce conceptos básicos, la motivación, el propósito y la estructura de la tesis. La primera parte de esta tesis (capítulos 2 a 4) se centra únicamente en la estimación de los estados. El Capítulo 2 presenta una revisión exhaustiva de los algoritmos más clásicos no basados en simulaciones (KF, EKF,UKF3) y los basados en simulaciones (SIS, SIR, ASIR, EPF, UPF). Para todos estos filtros, mencionados en la literatura, además de describirlos en detalle, se ha unificado la notación con el objetivo de que ésta sea consistente y comparable entre los diferentes algoritmos implementados a lo largo de este trabajo. Los capítulos 3 y 4 se centran en la realización de estudios Monte Carlo (MC) extensos que confirman la eficiencia de la metodología de filtrado de partículas para estimar los estados latentes de un proceso dinámico formulado en forma de espacio de estado, sea lineal o no. Algunos estudios MC complementarios se llevan a cabo para evaluar varios aspectos de la metodología de filtrado de partículas, como ser el problema de la degeneración, la elección de la estrategia de remuestreo, el número de partículas usadas o el tamaño de la serie temporal. Específicamente, el Capítulo 3 ilustra el comportamiento de lametodología de filtrado de partículas en un contexto lineal y gaussiano en comparación con el óptimo y exacto filtro de Kalman. La capacidad de filtrado de las cuatro variantes de filtro de partículas estudiadas (SIR, SIRopt, ASIR, KPF; el último siendo un caso especial del algoritmo EPF) se evaluó en base a dos procesos de series temporales aparentemente simples pero importantes: los denominados Local Level Model (LLM) y el AR (1) plus noise, que son no estacionario y estacionario, respectivamente. Este capítulo estudia en profundidad temas relevantes dentro del enfoque adoptado, como el impacto en la estimación de la relación entre la señal y el ruido (SNR: signal-to-noise-ratio, en esta tesis), de la longitud de la serie temporal y del número de partículas. El Capítulo 4 evalúa e ilustra el comportamiento de la metodología de filtrado de partículas en un contexto no lineal. En concreto, se utiliza un modelo de espacio de estado no lineal, no gaussiano y no estacionario tomado de la literatura para ilustrar el comportamiento de cuatro filtros de partículas (SIR, ASIR, EPF, UPF) en contraposición a dos filtros no basados en simulación bien conocidos (EKF, UKF). Aquí se comparan los esquemas de remuestreo residual y estratificado y se evalúa el efecto de aumentar el número de partículas. En la segunda parte (capítulos 5 y 6), se llevan a cabo también estudios MC extensos, pero ahora el objetivo principal es la estimación simultánea de los estados y parámetros fijos de ciertos modelos seleccionados. Esta área de investigación sigue siendo muy activa y es donde esta tesis contribuye más. El Capítulo 5 provee una revisión parcial de losmétodos para llevar a cabo la estimación simultánea de los estados y parámetros fijos a través de lametodología de filtrado de partículas. Dichos filtros son una extensión de aquellos adoptados anteriormente sólo para estimar los estados. Aquí se realiza un estudio MC para estimar el estado (nivel) y los dos parámetros de varianza del modelo LLM no estacionario; se utilizan cuatro variantes (LW, SIRJ, SIRoptJ, KPFJ) de filtro de partículas, seis escenarios típicos del SNR y dos escenarios para el llamado factor de descuento necesario en el paso de diversificación. En este capítulo, se propone la variante de filtro de partículas SIRJ (Sample Importance resampling with Jittering) como alternativa al filtro de referencia de Liu y West (LW PF). También se propone y explora el uso combinado de una distribución de importancia basada en el filtro de Kalman y un paso de diversificación (jittering) que da lugar a la variante del filtro de partículas denominada Kalman Particle Filteringwith Jittering (KPFJ). El Capítulo 6 se centra en la estimación de los estados y de los parámetros fijos del modelo básico no estándar de volatilidad estocástica denominado Stochastic autoregressivemodel of order one: SARV (1). Después de una introducción y descripción detallada de las características propias de series temporales financieras, se demuestra mediante estudios MC la capacidad de estimación de dos variantes de filtro de partículas (SIRJ vs. LW (Liu y West)) utilizando datos simulados. El capítulo termina con una aplicación a dos conjuntos de datos reales dentro del área financiera: el índice de rendimientos español IBEX 35 y los precios al contado (en dólares) del Brent europeo. La contribución en los capítulos 5 y 6 consiste en proponer nuevas variantes de filtros de partículas, como pueden ser el KPFJ, el SIRJ y el SIRoptJ (Caso especial del algoritmo SIRJ utilizando una distribución de importancia óptima) que se han desarrollado a lo largo de este trabajo. También se sugiere que los llamados filtros de partículas EPFJ (Extended Particle Filter with Jittering) y UPFJ (Unscented Particle Filter with Jittering) podrían ser opciones razonables cuando se trata de modelos altamente no lineales; el KPFJ siendo un caso especial del algoritmo EPFJ. En esta parte, también se tratan aspectos relevantes dentro de lametodología de filtrado de partículas, como ser el impacto potencial en la estimación de la longitud de la serie temporal, el parámetro de factor de descuento y el número de partículas. A lo largo de este trabajo se han escrito (e implementado en el lenguaje R) los pseudo-códigos para todos los filtros estudiados. Los resultados presentados se obtienen mediante simulaciones Monte Carlo (MC) extensas, teniendo en cuenta variados escenarios descritos en la tesis. Las características intrínsecas del modelo bajo estudio guiaron la elección de los filtros a comparar en cada situación específica. Además, la comparación de los filtros se basa en el RMSE (Root Mean Square Error), el tiempo de CPU y el grado de degeneración. Finalmente, el Capítulo 7 presenta la discusión, las contribuciones y las líneas futuras de investigación. Algunos aspectos teóricos y prácticos complementarios se presentan en los apéndices.
6

Medium-term power planning in electricity markets with renewable generation sources

Marí Tomàs, Laura 25 September 2015 (has links)
The problem addressed in this thesis is the medium-term generation planning over a yearly horizon of a generation company participating in a liberalized electricity market with pool auction of generation and consumption and with bilateral contracts between generation companies and distributions companies or big consumers. It is assumed that the generation portfolio of several generation companies includes a significant proportion of dispatchable renewables (hydro generation with storage reservoirs and pumping schemes) and non-dispatchable renewables as wind power and solar photovoltaic generation. It is also assumed than more than one generation company are able to influence market-price levels through their bidding in the auction so that the market could be oligopolistic. The results obtained are of interest to price-maker generation companies, but also to price-taker generators, and to the market operator to check whether the participants in the market behave as a cartel or seeking an equilibrium. The stochasticity of parameters in the medium-term planning is modeled in two ways. Regarding consumers load and generation unit outages, through the use of the probabilistic method of load matching: by representing the load through predicted load-duration curves of each period into which the yearly horizon is subdivided, by considering the capacity and an outage probability of each generation unit and by using the existing convolution techniques and the linear-inequality load-matching constraints. Regarding renewable energy sources, stochastic programming is used. Hydro-generation scenarios of inflows are developed for each period. As for non-dispatchable renewables (wind power and solar photo-voltaic generation), a novel model of representing them through two pseudo-units: one base unit with small outage probability and a crest unit with large outage probability is proposed, and scenarios are developed for the relevant parameters of the pseudo-units. The solar photo-voltaic generation model requires splitting each period into three subperiods with the dark hours, with the medium-light hours and with the bright hours. Quasi-Monte Carlo techniques have been employed to create a large scenario fan later reduced to a scenario tree with a reduced number of scenarios. Market prices are taken into account through an endogenous linear market-price function of load duration whose intercept depends on total hydro generation level and on wind power and solar photovoltaic level in each node of the scenario tree. With such market price function, the endogenous cartel solution and the equilibrium solutions to the medium-term planning can be obtained. To avoid having to consider the total exponential number of load-matching constraints, a load matching heuristic has been employed where small batches of new load matching constraints are generated after successive optimizations considering only the generated load matching constraints. For equilibrium solutions, the Nikaido-Isoda relaxation algorithm of successive solutions is employed using the successive optimizations of the load-matching heuristic. In mixed-market systems with auction and bilateral contracts, a time-share hypothesis is formulated and the profits function for generation companies with the generation left after honoring their bilateral contracts is formulated. The profit function obtained is non-convex, and a direct global optimization solver was tried, but proved not to be practical for the size of problem to be solved. A non-linear interior-point constrained optimization solver, also employed for problems in pure pool markets, was tried with several special techniques to circumvent the troubles caused by the non-convexity of the objective function and satisfactory results were obtained. A novel model of multi-period medium-term pumping was presented and employed. Results for several realistic test cases having different generation settings have been presented and analyzed. / El problema adreçat en aquesta tesi és el de la planificació a mig termini de la generació elèctrica d'una companyia que participa dins d'un mercat elèctric. S'ha assumit que aquestes companyies generadores disposen d'una proporció significant d'energies renovables despatxables (com la generació hidràulica amb embassaments d'emmagatzematge i sistemes de bombeig) i d'energies renovables no-despatxables tals com l'energia eòlica i la generació d'energia solar fotovoltaica. També s’ha tingut en compte que més d'una companyia generadora és capaç d'influir en els nivells de preu de mercat a través de les seves ofertes dins de la subhasta tractant-se, doncs, d'un mercat oligopolístic. Els resultats obtinguts són interessants per a companyies generadores del tipus 'price-maker', però alhora també ho són per companyies 'price-taker' i, finalment, també ho són per a l'operador del mercat per tal de comprovar si els participants en el mercat es comporten com si hi hagués 'cartel' o si bé busquen l'equilibri. L'estocasticitat de la càrrega i les panes de les unitats de generació dins de la planificació a mig termini es modela mitjançant l'ús del mètode probabilístic de recobriment de la càrrega: tot representant la càrrega a través de corbes predites de durada de la càrrega per a cada període tractat, utilitzant tècniques existents de convolucions i les anomenades constriccions de recobriment de la càrrega que són de desigualtat i lineals. Pel que fa a les energies renovables s'ha emprat programació estocàstica. Per a cada període s'han desenvolupat escenaris d'hidràulica per a les aportacions naturals d'aigua. Pel que fa a les renovables no-despatxables (eòlica i solar), es presenta un nou model per a representar-les a través de dues pseudo-unitats: una unitat de base amb una probabilitat de pana molt petita i una unitat de cresta amb una probabilitat de pana gran. La generació solar requereix un model més complex ja que s'han dividit les hores solars en tres subperíodes: sense sol, sol mig i sol. També s'han creat escenaris per als paràmetres més rellevants d'aquestes pseudo-unitats. S'han emprat mètodes de Quasi-Monte Carlo per a crear un gran arbre d'escenaris de tipus FAN que, posteriorment, s'ha reduït a un arbre d'escenaris d'una determinada mida. La funció de preu de mercat respecte a la durada de la càrrega és una funció endògena on es té en compte la variació observada del nivell dels preus amb la generació hidràulica, la generació eòlica i la solar a cada node dins de l'arbre d'escenaris. Amb aquest tipus de funció de preu de mercat, les solucions de cartel i les d'equilibri poden ser obtingudes. Per tal de no haver de considerar un nombre exponencial de constriccions de recobriment, s'utilitza una heurística on petits subconjunts de restriccions es van generant després de successives optimitzacions considerant només les constriccions de recobriment generades. Per a les solucions d'equilibri, s'ha utilitzat l'algoritme de relaxació de Nikaido-Isoda en les successives optimitzacions de l'heurística. Pels mercats mixtos (amb subhasta i contractes bilaterals) s'ha formulat una hipòtesi de 'time-share' i s’ha presentat una funció de beneficis de les empreses generadores on només es té en compte la generació que resta després d'haver satisfet els contractes bilaterals. La funció obtinguda és no convexa i s'ha utilitzat un resolutor d'optimització global, però s'ha vist que no era pràctic per a la mida del problema que s'estava solucionant. Per aquest motiu, s'ha utilitzat un resolutor no lineal de punt interior (Ipopt) amb diverses tècniques especials per tal d'eludir els problemes causats per la no convexitat de la funció objectiu tot obtenint resultats satisfactoris. Finalment, s'ha presentat i s'ha utilitzat un nou mètode per introduir els esquemes de bombeig multi-període i a mig termini. Es mostren i s'analitzen els resultats obtinguts per a diversos casos de prova (realistes) amb diferents configuracions de generació.
7

La imputación múltiple y su aplicación a series temporales financieras

Cano Berlanga, Sebastian 19 November 2013 (has links)
Cuando una base de datos presenta valores no disponibles (NA ó missings), su análisis es imposible hasta que no se decida lo que hacer con ellos. A tal efecto, la literatura ha desarrollado distintos enfoques para enfrentarse a este problema. Los primero métodos fueron los basados en regresión (Yates [1933]), y posteriormente se utilizaron algoritmos basados en la función de verosimilitud (algoritmo EM). Rubin [1987] estudia el problema de los NA y pone de manifiesto que los algoritmos mencionados son de imputación única y, entre sus inconvenientes más importantes, destaca la omisión de la incertidumbre que causa la presencia de los missings en el ulterior análisis. Para tal fin, Rubin [1987] propone la imputación múltiple, cuyo objetivo es la medición de la incertidumbre omitida por los métodos de imputación única, lo que se consigue mediante dos herramientas: algoritmos MCMC y la inferencia de Rubin. La imputación múltiple se ha utilizado únicamente en el campo de los datos de sección cruzada, y esta Tesis pretende extender su aplicación al campo de la series temporales financieras. Para tal fin, se estudian las técnicas que sobre las que se fundamentan los métodos MCMC, la inferencia de Rubin y los modelos heteroscedásticos condicionados. El resultado es la imputación mediante separación, que consigue adaptar la técnica de imputación múltiple a las series temporales financieras mediante la combinación de un filtro asimétrico, un método Bootstrap y el conocido algoritmo GibbsSampling. La Tesis se extiende con un librería programada en lenguaje R, de próxima incorporación en el cuerpo de librerías contribuidas en el portal oficial del citado lenguaje, que implementa el método propuesto. / When a database contains missing values, the forthcoming analysis becomes impossible until one decides how to deal with them. That is the reason why the literature has developed different ways to solve problems associated with NA values. The first methods of this specific literature were regression-based (Yates [1933]), but later more sophisticated algorithms were available (EM algorithm). Rubin [1987] makes a deep analysis on the topic and develops Multiple Imputation, a Monte Carlo technique in which the missing values are replaced by m>1 simulated versions, where m is typically small (e.g. 3-10). In Rubin's method for `repeated imputation' inference, each of the simulated complete datasets is analyzed by standard methods, and the results are combined to produce estimates and confidence intervals that incorporate missing-data uncertainty. Multiple Imputation has been widely used in cross section studies but not in time series. This doctoral thesis aims to extend Multiple Imputation to longitudinal studies, specifically to financial time series. To do so, we propose a method based on an asymmetric filter which splits the original time series in conditional variance and innovations. This procedure allows us to generate plausible values combining the algorithms Gibbs Sampling and Approximate Bayesian Bootstrap. The validity of the proposed method is discussed through extensive tests on different financial time series (firms and market indices). The analysis of empirical tests displays that, after imputing the data, they maintain its individual characteristics. Furthermore, results exhibit high precision in the shape parameter of the conditional distribution of returns, and densities of both conditional variance and innovations.
8

Machine learning methods for the analysis of liquid chromatography-mass spectrometry datasets in metabolomics

Fernández Albert, Francesc 30 October 2014 (has links)
Tesi per compendi de publicacions / Liquid Chromatography-Mass Spectrometry (LC/MS) instruments are widely used in Metabolomics. To analyse their output, it is necessary to use computational tools and algorithms to extract meaningful biological information. The main goal of this thesis is to provide with new computational methods and tools to process and analyse LC/MS datasets in a metabolomic context. A total of 4 tools and methods were developed in the context of this thesis. First, it was developed a new method to correct possible non-linear drift effects in the retention time of the LC/MS data in Metabolomics, and it was coded as an R package called HCor. This method takes advantage of the retention time drift correlation found in typical LC/MS data, in which there are chromatographic regions in which their retention time drift is consistently different than other regions. Our method makes the hypothesis that this correlation structure is monotonous in the retention time and fits a non-linear model to remove the unwanted drift from the dataset. This method was found to perform especially well on datasets suffering from large drift effects when compared to other state-of-the art algorithms. Second, it was implemented and developed a new method to solve known issues of peak intensity drifts in metabolomics datasets. This method is based on a two-step approach in which are corrected possible intensity drift effects by modelling the drift and then the data is normalised using the median of the resulting dataset. The drift was modelled using a Common Principal Components Analysis decomposition on the Quality Control classes and taking one, two or three Common Principal Components to model the drift space. This method was compared to four other drift correction and normalisation methods. The two-step method was shown to perform a better intensity drift removal than all the other methods. All the tested methods including the two-step method were coded as an R package called intCor and it is publicly available. Third, a new processing step in the LC/MS data analysis workflow was proposed. In general, when LC/MS instruments are used in a metabolomic context, a metabolite may give a set of peaks as an output. However, the general approach is to consider each peak as a variable in the machine learning algorithms and statistical tests despite the important correlation structure found between those peaks coming from the same source metabolite. It was developed an strategy called peak aggregation techniques, that allow to extract a measure for each metabolite considering the intensity values of the peaks coming from this metabolite across the samples in study. If the peak aggregation techniques are applied on each metabolite, the result is a transformed dataset in which the variables are no longer the peaks but the metabolites. 4 different peak aggregation techniques were defined and, running a repeated random sub-sampling cross-validation stage, it was shown that the predictive power of the data was improved when the peak aggregation techniques were used regardless of the technique used. Fourth, a computational tool to perform end-to-end analysis called MAIT was developed and coded under the R environment. The MAIT package is highly modular and programmable which ease replacing existing modules for user-created modules and allow the users to perform their personalised LC/MS data analysis workflows. By default, MAIT takes the raw output files from an LC/MS instrument as an input and, by applying a set of functions, gives a metabolite identification table as a result. It also gives a set of figures and tables to allow for a detailed analysis of the metabolomic data. MAIT even accepts external peak data as an input. Therefore, the user can insert peak table obtained by any other available tool and MAIT can still perform all its other capabilities on this dataset like a classification or mining the Human Metabolome Dataset which is included in the package.
9

Column-generation and interior point methods applied to the long-term electric power-planning problem

Pagès Bernaus, Adela 18 December 2006 (has links)
Aquesta tesi s'adreça al problema de planificació de la generació elèctrica a llarg termini per a una companyia específica (SGC) que participa en un mercat liberalitzat organitzat en un pool. Els objectius de la tesi són: modelitzar aquest problema, i desenvolupar i implementar tècniques apropiades i eficients que el resolguin. Un planificació òptima a llarg termini és important, per exemple, per a la confecció de pressupostos, o per a la gestió de compres/consum de combustibles. Una altra aplicació és la de guiar la planificació a curt termini perquè aquesta tingui en compte decisions preses sota una òptica de llarg termini. La nostra proposta per a fer la planificació de la generació és optimitzar la generació esperada de cada unitat (o la unió de diverses unitats de característiques semblants) del pool per a cada interval en que dividim el llarg termini. El model bàsic per la planificació de la generació a llarg termini (LTGP) maximitza el benefici de totes les unitats del pool. La constricció més important és la satisfacció de la demanda, ja que el sistema està sempre balancejat. Utilitzem la formulació de Bloom i Gallant, la qual modela la càrrega a través d'una monòtona de càrrega per cada interval i requereix un número exponencial de constriccions lineals de desigualtat, anomenades LMCs. Altres constriccions (lineals) incloses en el model són: garantia de potència, límits en la disponibilitat de combustibles, emissions màximes de CO2 o una quota de mercat mínima per a la SGC. Una extensió d'aquest model és la planificació conjunta de l'assignació de manteniments de les unitats tèrmiques d'una SGC amb la planificació de la generació. El model conjunt és un problema quadràtic amb variables binàries i contínues. Per resoldre aquest model es proposa un parell d'heurístiques i s'ha implementat un prototipus de branch and bound en AMPL.Aquesta tesi també proposa una manera per coordinar el model LTGP proposat amb una planificació a curt termini. Es desenvolupa un model de curt que inclou els resultats de llarg termini. Donat que el model de planificació a llarg termini s'ha de resoldre sovint (principalment per passar informació acurada al model de curt), les tècniques emprades per a resoldre'l han de donar resultats fiables en un espai de temps curt. Les tècniques aplicades han estat:· Donat que les constriccions de recobriment i les fites de no negativitat defineixen un políedre convex els vèrtexs del qual són fàcils de trobar el model es transforma i les variables esdevenen els coeficients convexos que defineixen un punt. Aquest nou problema es resolt amb l'algoritme de Murtagh i Saunders, que és un procediment òptim. Aquest algoritme s'aplica sota un esquema de generació de columnes donat que el número de vèrtexs del políedre és comparable al número de constriccions. L'avantatge d'aquest mètode és que els vèrtexs es van generant a mesura que es necessiten.· L'aplicació de mètodes directes és computacionalment costós donat el número exponencial de LMCs. De totes maneres, a l'òptim només un conjunt reduït de constriccions de recobriment seran actives. Hem desenvolupat una heurística, anomenada heurística GP, la qual genera un subconjunt de constriccions, entre les quals hi ha les LMCs que són actives a l'òptim. L'heurística resol una seqüència de problemes quadràtics, els quals incrementen el número de LMCs considerades a cada iteració. Els problemes es resolen amb mètodes de punt interior que s'inicialitzen amb tècniques de warm start per tal d'accelerar la convergència cap a la nova solució. Aquest procediment resulta ser molt més eficient que el de generació de columnes. La modelització i els casos de prova estan basats en dades d'un sistema de pool pur i de mercat com ha estat a Espanya fins el juliol de 2006. / This thesis presents an approach to the long-term planning of power generation for a company (SGC) participating in a liberalized market organized as a pool. The goal of this thesis is two-fold: to model the problem and to develop and implement appropriate and efficient techniques for solving it.The optimization of the long-term generation planning is important for budgeting and planning fuel acquisitions, and to give a frame where to fit short-term generation planning.Our proposal for planning long-term generation is to optimize the expected generation of each unit (or the merger of several units of the same type) in the power pool over each interval into which the long-term horizon is split.The basic model for long-term generation planning (LTGP) maximizes the profit for all the units participating in the pool. The most important constraint is matching demand, since the market always clears. The Bloom and Gallant formulation is used, which models the load with a load-duration curve for each interval and requires an exponential number of linear inequality constraints, called herein LMCs. Other (linear) constraints included in the model are: minimum generation time, limits on the availability of fuel, maximum CO2 emission limits or the market share of the SGC. This thesis also proposes the way in which coordination between the LTGP model developed and a short-term plan should be considered and provides a model for short-term electrical power planning adapted to the LTGP proposed and which includes the long-term results.Another decision that needs to be taken from a long-term point of view is the joint scheduling of thermal unit maintenances with the generation planning of a particular SGC. The results of a prototype of a Branch and Bound implemented in AMPL are included in this thesis.Long-term planning needs to be considered before short-term planning and whenever the real situation deviates from the forecasted parameters, so the techniques implemented must be efficient so as to provide reliable solutions in a short time. Two methods for handling the LMCs are proposed and compared:● A decomposition technique exploits the fact that the LMCs plus the non-negativity bounds define a convex polyhedron for each interval whose vertices are easy to find. Thus, the problem is transformed and the variables become the coefficients of a convex combination of the vertices. The transformed problem is quadratic with linear constraints, making it suitable to be solved with the Murtagh & Saunders algorithm, which gives an optimal solution. A column-generation approach is used because the number of vertices of the polyhedron is comparable to the number of LMCs. The advantage of this method is that it does not require previous computation of all of the vertices, but rather computes them as the algorithm iterates.● The application of direct methods is computationally difficult because of the exponential number of inequality LMCs. However, only a reduced subset of LMCs will be active at the optimizer. A heuristic, named GP heuristic, has been devised which is able to find a reduced set of LMCs including those that are active at the optimizer. It solves a sequence of quadratic problems in which the set of LMCs considered is enlarged at each iteration. The quadratic problems are solved with an interior point method, and warm starts are employed to accelerate the solution of the successively enlarged quadratic problems. This procedure is more efficient than the column generation one.The modeling and tests of this thesis are based on the pure pool system and market data from the Spanish system up to July 2006.
10

Modelos Booleanos no homogéneos. Nuevas metodologí­as, generalizaciones y aplicaciones

Gallego Pitarch, María de los Ángeles 29 July 2014 (has links)
El hilo conductor del trabajo realizado en esta tesis doctoral es el estudio de la generalización del modelo booleano al caso no homogéneo (MBNH). Para ello, se han ido planteando diversos objetivos. En primer lugar, la generalización de la función K, propia de la metodología de los modelos germen y grano, a los MBNH nos ha permitido definir una nueva característica de la distribución de probabilidad de estos modelos. En segundo lugar, un nuevo método de estimación de los parámetros de un MBNH particular ha sido planteado y comparado con los métodos existentes en la bibliografía, En tercer lugar, se ha planteado una generalización del modelo al caso espacio temporal, en particular para el caso de no homogeneidad espacial y por último se han estudiado métodos de clasificación no supervisada cuando la información muestral son imágenes binarias, que asumimos realizaciones de diferentes modelos germen y grano conocidos. En todos los trabajos se ha realizado un estudio de simulación para evaluar la adecuación de las metodologías propuestas y se han visto aplicaciones a casos reales. Todos los casos reales fueron planteados por investigadores de otras ramas científicas, motivando el desarrollo de las distintas partes del estudio. Se han estudiado diferentes aspectos de este modelo, como por ejemplo distintos métodos de estimación de sus parámetros, algunas características de su distribución de probabilidad y su generalización al caso temporal, con la introducción del modelo booleano no homogéneo temporal. Algunos de estos aspectos también podrían aplicarse a los modelos germen y grano en general. También se han estudiado métodos de clasificación no supervisada cuando la información muestral son imágenes binarias y asumimos que son realizaciones de diferentes modelos germen y grano conocidos. En todos los trabajos se ha realizado un estudio de simulación para verificar las nuevas metodologías propuestas que además se han aplicado a casos reales. En todos ellos, este caso real fue el problema inicial que se nos planteó por parte de investigadores de otras ramas científicas y que motivó el estudio. El hilo conductor del trabajo realizado en esta tesis doctoral es el estudio de una generalización del modelo booleano: el modelo booleano no homogéneo. Se han planteado diferentes objetivos sobre este modelo. Primeramente definir nuevas características de la distribución de probabilidad de un modelo Booleano no homogéneo. Se generaliza la función K para modelos germen y grano en general. Veremos Métodos de estimación de sus parámetros. Con un método nuevo podremos estimar los parámetros de un modelo booleano no homogéneo particular y será comparado con otros métodos ya existentes. Vamos a ver una Generalización al caso espacio temporal. Se generaliza el modelo booleano temporal para el caso en que el espacio no sea homogéneo. También se han estudiado métodos de clasificación no supervisada cuando la información muestral son imágenes binarias y asumimos que son realizaciones de diferentes modelos germen y grano conocidos. Algunos de estos estudios se podrán generalizar a modelos germen y grano en general.

Page generated in 0.4767 seconds