Global ETD Search

61	Models de distribució sobre el símplex Mateu Figueras, Glòria 10 October 2003 (has links) Les dades composicionals són vectors les components dels quals representen proporcions respecte d'un total, i per tant estan sotmesos a la restricció que la suma de les seves components és una constant. L'espai natural per a vectors amb D components és el símplex SD. En l'àmbit de la modelització, ens trobem amb una gran dificultat: no coneixem prou classes de distribucions que permetin modelitzar adequadament la majoria dels conjunts de dades composicionals. En els anys 80, Aitchison proposa una metodologia per treballar amb dades composicionals que hem anomenat metodologia MOVE, ja que es basa en transformacions. En el tema específic de la modelització, Aitchison utilitza la transformació logquocient additiva per projectar les composicions a l'espai real i posteriorment les modelitza amb una distribució normal. D'aquesta manera introdueix la distribució normal logística additiva. Tot i les bones propietats algebraiques que presenta aquesta distribució ens trobem amb dues dificultats: el model normal no pot modelitzar alguns conjunts de dades transformades, especialment quan presenten una certa asimetria. Per altra banda, aquesta família de distribucions no és tancada respecte de l'amalgama (o suma) de components. El 1996 Azzalini i Dalla-Valle introdueixen la distribució normal asimètrica a RD. Es tracta d'una generalització del model normal amb un paràmetre de forma que regula la asimetria de la distribució. Utilitzant la teoria de les transformacions i la distribució normal asimètrica, hem definit una nova distribució que hem anomenat normal asimètrica logística additiva. Aquesta és especialment indicada per modelitzar conjunts de dades composicionals amb un biaix moderat, i consegüentment ens aporta la solució a una de les dificultats de la distribució normal logística additiva. Estudiant amb més detall aquest nou model, hem comprovat que presenta unes bones propietats algebraiques. Per altra banda i mitjançant simulacions, hem pogut il·lustrar l'efecte que tenen els paràmetres de la distribució normal logística additiva inicial en la distribució de l'amalgama i hem pogut comprovar que, en certs casos, el model normal asimètric proporciona un bon ajust per al logquocient de l'amalgama. Una eina útil en la modelització de vectors aleatoris són els tests de bondat d'ajust. Malauradament, no és gens freqüent trobar a la literatura tests de bondat d'ajust aplicables a la distribució normal asimètrica. Així doncs, hem desenvolupat uns tests per aquesta distribució i hem realitzat un estudi de potència utilitzant diverses distribucions alternatives. La metodologia que hem escollit és la de D'Agostino i Stephens que consisteix en mesurar la diferència entre la funció de distribució empírica (calculada mitjançant la mostra) i la funció de distribució teòrica (la normal asimètrica). L'estructura d'espai euclidià del símplex ens ha suggerit una nova metodologia que hem anomenat STAY ja que no es basa en les transformacions. Sabem que és equivalent utilitzar les operacions pròpies de SD que aplicar les operacions de l'espai real a les coordenades de les composicions respecte d'una base ortonormal. Sobre aquestes coordenades hem definit el model normal i el model normal asimètric a SD i hem realitzat un estudi comparatiu amb els models normal logístic additiu i normal asimètric logístic additiu. Si bé en determinades situacions aquesta nova metodologia dóna resultats totalment equivalents als obtinguts amb la tècnica de les transformacions, en altres aporta canvis importants. Per exemple, ha permès expressar directament sobre el símplex conceptes bàsics de l'estadística clàssica, com el concepte d'esperança o de variància. Donat que no existeixen treballs previs en aquesta direcció, proposem un exemple il·lustratiu en el cas univariant. Sobre les coordenades respecte d'una base unitària, hem definit el model normal a R+ i hem realitzat una comparació amb el model lognormal obtingut mitjançant la transformació logarítmica. / Compositional data are vectors whose components represent proportions of some whole and this is the reason why they are subject to the unit-sum constraint of its components. Therefore, a suitable sample space for compositional data is the unit simplex SD. The modelling of compositional data has a great problem: the lack of enough flexible models. In the eighties Aitchison developed a methodology to work with compositional data that we have called MOVE methodology. It is based on the transformation of compositional data from SD to the real space and the transformed data is modelled by a multivariate normal distribution. The additive logratio transformation gives rice to the additive logistic normal model which exhibits rich properties. Unfortunately, sometimes a multivariate normal model cannot properly fit the transformed data set, especially when it presents some skewness. Also the additive logistic normal family is not closed under amalgamation of components. In 1996 Azzalini and Dalla Valle introduced the skew normal distribution: a family of distributions on the real space, including the multivariate normal distribution, but with an extra parameter which allows the density to have some skewness. Emulating Aitchison, we have combined the logistic normal approach with the skew-normal distribution to define a new class of distributions on the simplex: the additive logistic skew-normal class. We apply it to model compositional data sets when the transformed data presents some skewness. We have proved that this class of distributions has good algebraic properties. We have also studied the adequacy of the logistic skew-normal distribution to model amalgamations of additive logistic normal vectors. Simulation studies show that in some cases our distribution can provide a reasonable fit. A useful tool in the study of the modelisation of vectors is the test of goodness-of-fit. Unfortunately we don't find in the literature tests of goodness-of-fit for the skew-normal distribution. Thus, we have developed these kinds of tests and we have completed the work with a power study. We have chosen the R.B. D'Agostino and M.A. Stephens methodology that consists in computing the difference between the empirical distribution function (computed from the sample) and the theoretic distribution function (skew-normal). Parallel studies have recently developed the metric space structure of SD. This has suggested us a new methodology to work with compositional data sets that we have called STAY approach because it is not based on transformations. The theory of algebra tells us that any D dimensional real vector space with an inner product has an orthonormal basis to which the coefficients behave like usual elements in RD. Our suggestion is to apply to these coefficients all the standard methods and results available for real random vectors. Thus, on the coefficients with respect to an orthonormal basis we have defined the normal model in SD and the skew-normal model in SD and we have compared them with the additive logistic normal and the additive logistic skew-normal model respectively. From a probabilistic point of view, the laws on SD defined using the STAY methodology are identical to the laws defined using the MOVE methodology. But the STAY methodology has provided some important changes. For example, it has allowed us to express directly over the simplex some basic concepts like the expected value or the variance of a random composition. As we have not found in the literature previous work in this direction, we have started this study with an illustrative example. Over the coefficients with respect to a unitary basis we have defined the normal model in the positive real line and we have compared it with the lognormal model, defined with the logarithmic transformation. 1209. Estadística 51 - Matemàtiques
62	Comparación mediante simulación de los métodos EM e imputación múltiple para datos faltantes Galarza Guerrero, Lourdes Angelica January 2013 (has links) En el siguiente trabajo se presentan dos tratamientos a los problemas suscitados en el análisis de datos con presencia de datos perdidos: El Algoritmo EM basado en la Estimación por Máxima Verosimilitud y la Imputación Múltiple para datos faltantes, ambos métodos presentan ciertas ventajas frente a los métodos de imputación simple que ocasionan la obtención de estimadores distorsionados y sesgados. El algoritmo EM y la Imputación Múltiple se aplican a un conjunto de datos obtenido por simulación, causándole la pérdida de algunos valores con el objetivo de realizar posteriores comparaciones de las estimaciones obtenidas en casos con el conjunto de datos con y sin información faltante. Algoritmos Imputación múltiple (Estadística)
63	Aproximación bayesiana para determinación de modelos Núñez Joseli, Martha Olinda January 2005 (has links) La determinación de modelos mediante una aproximación Bayesiana comprende la adecuacidad y selección de modelos a través de herramientas de diagnósticos Bayesianas definidas apropiadamente. Estas herramientas involucran a distribuciones predictivas condicionales univariadas que se asume generó los datos observados. El cálculo de estas herramientas es hecha a través de métodos basados en simulación estocástica. Los resultados obtenidos para datos artificiales validan las herramientas para propósitos de determinación de modelos. Un ejemplo en el campo de ciencias biológicas es ilustrado usando las herramientas definidas anteriormente. Estadística bayesiana Procesos estocásticos
64	Modelo Dina aplicado a la evaluación de matemática en estudiantes de segundo grado de secundaria Sosa Paredes, Yuriko Kirilovna 31 May 2017 (has links) Los modelos de diagnóstico cognitivo (MDC) tienen como finalidad describir o diagnosticar el comportamiento de los evaluados por medio de clases o perfiles latentes, de tal manera que se obtenga información más específica acerca de las fortalezas y debilidades de ellos. Uno de los modelos más populares de esta gran familia es el llamado modelo DINA, el cual tuvo su primera aparición en Haertel (1989) enfocado principalmente en el campo educacional. Este modelo considera solo respuestas observadas dicotómicas de parte de los individuos y tiene como restricción principal que ellos deben dominar necesariamente todas las habilidades requeridas por cada ítem; aquellas que se resumen en una matriz llamada Q. Asimismo, el modelo estima parámetros para los ítems, los cuales son denominados de \ruido": Adivinación y Desliz. En este trabajo desarrolla teóricamente el modelo expuesto; es decir, sus fundamentos y principales propiedades desde el enfoque bayesiano. Específicamente, las estimaciones se realizan mediante el Muestreador de Gibbs. Se realizaron 8 estudios de simulación, cada uno de ellos con tres diferentes tamaños de población, donde se probaron combinaciones de los parámetros en estudio con el fin de comparar la recuperación de parámetros mediante el enfoque clásico y el bayesiano. El análisis de ambos enfoques se realizó con rutinas de código del software libre R, usando los paquetes CDM y dina para el enfoque clásico y el bayesiano, respectivamente. En líneas generales, los resultados muestran estimaciones insesgadas y con valores pequeños de la raíz del error cuadrático medio (RMSE) para ambos enfoques. Incluso, conforme el tamaño de la población incrementa, las estimaciones no tienen mayores diferencias. Aunque en tamaños de población más pequeños el enfoque bayesiano obtiene ligeras ventajas con respecto al otro, especialmente en el parámetro de probabilidad de pertenencia a las clases (π). Además, es necesario mencionar que los parámetros de ruido de los ítems son estimados más precisamente con el enfoque clásico en varios de los estudios. Finalmente, se presenta una aplicación enfocada en educación, donde se analiza una muestra de 3040 alumnos del 2do grado de secundaria, evaluados en una prueba de 48 ítems de la competencia matemática realizada por la Oficina de Medición de la Calidad de los Aprendizajes (UMC) en el 2015. A esta prueba se le aplica el modelo de Rasch y el modelo DINA bajo el enfoque bayesiano, con el _n de estudiar la correspondencia entre indicadores de ambos modelos, tanto para los parámetros de los alumnos (habilidad y per_les latentes) como de los ítems (dificultad y parámetros de ruido). / Trabajo de investigación Estadística bayesiana Psicometría
65	Análisis bayesiano de modelos de clases latentes para variables politómicas: Confianza hacia instituciones públicas Cruz Sarmiento, Marylía Paola 11 February 2019 (has links) El modelo de análisis de clases latentes tiene como finalidad describir una variable no observable a través del agrupamiento de los individuos en base a sus patrones de respuestas. La estimación en este modelo se puede realizar mediante el algoritmo de Esperanza-Maximización (EM) y su desarrollo para el caso politómico se encuentra implementado en el paquete poLCA de R. Desde el punto de vista bayesiano, esta estimación ha sido hasta el momento implementada sólo para el caso de variables dicotómicas. En este trabajo, se busca extender este ultimo aporte para el caso politómico, haciendo uso del muestrador de Gibbs. La aplicación del modelo de análisis de clases latentes, bajo el enfoque bayesiano aquí desarrollado, se realizó sobre un conjunto de datos reales relacionados con la con fianza hacia 21 instituciones públicas en una encuesta para Lima Metropolitana. En general, se identificaron tres grupos de encuestados seg un sus niveles de confianza institucional, los cuales se analizaron luego en relación a otras variables. / Tesis Estadística bayesiana Variables latentes
66	Inferencia bayesiana en el modelo de regresión beta rectangular Calderón Pozo, Francisco German 07 May 2018 (has links) Se conoce que el modelo lineal normal no es apropiado para situaciones en la que la variable respuesta es una proporción que solo toma valores en un rango limitado (0; 1), pues, se pueden obtener valores ajustados para la variable de inter es que exceden sus límites inferior y superior. Ante dicha situación, una propuesta es utilizar la distribución beta ya que es bastante flexible para modelar proporciones. Este modelo de regresión, sin embargo, puede ser influenciado por la presencia de valores atípicos o extremos. Debido a ello, se ha propuesto en la literatura, un modelo de mayor robustez llamado modelo de regresión beta rectangular, el cual permite una mayor incidencia de tales valores. El objetivo general de la tesis es estudiar las propiedades, estimar y aplicar a un conjunto de datos reales el modelo de regresión beta rectangular desde el punto de vista de la estadística bayesiana. Para cumplir con el objetivo planteado, se estudian las características y propiedades de las distribuciones beta y beta rectangular. Luego, se desarrolla el análisis bayesiano del modelo de regresión beta rectangular considerando las distribuciones a priori y a posteriori, los criterios de selección de modelos y simulaciones de Montecarlo v a cadenas de Markov. También, se realizan estudios de simulación para demostrar que el nuevo modelo es m as robusto que el modelo de regresión beta. Adicionalmente, se presenta una aplicación para mostrar la utilidad del modelo de regresión beta rectangular. / Tesis Estadística bayesiana Regresión beta
67	Aproximación bayesiana para determinación de modelos Núñez Joseli, Martha Olinda January 2005 (has links) La determinación de modelos mediante una aproximación Bayesiana comprende la adecuacidad y selección de modelos a través de herramientas de diagnósticos Bayesianas definidas apropiadamente. Estas herramientas involucran a distribu¬ciones predictivas condicionales univariadas que se asume generó los datos obser¬vados. El cálculo de estas herramientas es hecha a través de métodos basados en simulación estocástica. Los resultados obtenidos para datos artificiales validan las herramientas para propósitos de determinación de modelos. Un ejemplo en el campo de ciencias biológicas es ilustrado usando las herramientas definidas anteriormente.
68	Column-generation and interior point methods applied to the long-term electric power-planning problem Pagès Bernaus, Adela 18 December 2006 (has links) Aquesta tesi s'adreça al problema de planificació de la generació elèctrica a llarg termini per a una companyia específica (SGC) que participa en un mercat liberalitzat organitzat en un pool. Els objectius de la tesi són: modelitzar aquest problema, i desenvolupar i implementar tècniques apropiades i eficients que el resolguin. Un planificació òptima a llarg termini és important, per exemple, per a la confecció de pressupostos, o per a la gestió de compres/consum de combustibles. Una altra aplicació és la de guiar la planificació a curt termini perquè aquesta tingui en compte decisions preses sota una òptica de llarg termini. La nostra proposta per a fer la planificació de la generació és optimitzar la generació esperada de cada unitat (o la unió de diverses unitats de característiques semblants) del pool per a cada interval en que dividim el llarg termini. El model bàsic per la planificació de la generació a llarg termini (LTGP) maximitza el benefici de totes les unitats del pool. La constricció més important és la satisfacció de la demanda, ja que el sistema està sempre balancejat. Utilitzem la formulació de Bloom i Gallant, la qual modela la càrrega a través d'una monòtona de càrrega per cada interval i requereix un número exponencial de constriccions lineals de desigualtat, anomenades LMCs. Altres constriccions (lineals) incloses en el model són: garantia de potència, límits en la disponibilitat de combustibles, emissions màximes de CO2 o una quota de mercat mínima per a la SGC. Una extensió d'aquest model és la planificació conjunta de l'assignació de manteniments de les unitats tèrmiques d'una SGC amb la planificació de la generació. El model conjunt és un problema quadràtic amb variables binàries i contínues. Per resoldre aquest model es proposa un parell d'heurístiques i s'ha implementat un prototipus de branch and bound en AMPL.Aquesta tesi també proposa una manera per coordinar el model LTGP proposat amb una planificació a curt termini. Es desenvolupa un model de curt que inclou els resultats de llarg termini. Donat que el model de planificació a llarg termini s'ha de resoldre sovint (principalment per passar informació acurada al model de curt), les tècniques emprades per a resoldre'l han de donar resultats fiables en un espai de temps curt. Les tècniques aplicades han estat:· Donat que les constriccions de recobriment i les fites de no negativitat defineixen un políedre convex els vèrtexs del qual són fàcils de trobar el model es transforma i les variables esdevenen els coeficients convexos que defineixen un punt. Aquest nou problema es resolt amb l'algoritme de Murtagh i Saunders, que és un procediment òptim. Aquest algoritme s'aplica sota un esquema de generació de columnes donat que el número de vèrtexs del políedre és comparable al número de constriccions. L'avantatge d'aquest mètode és que els vèrtexs es van generant a mesura que es necessiten.· L'aplicació de mètodes directes és computacionalment costós donat el número exponencial de LMCs. De totes maneres, a l'òptim només un conjunt reduït de constriccions de recobriment seran actives. Hem desenvolupat una heurística, anomenada heurística GP, la qual genera un subconjunt de constriccions, entre les quals hi ha les LMCs que són actives a l'òptim. L'heurística resol una seqüència de problemes quadràtics, els quals incrementen el número de LMCs considerades a cada iteració. Els problemes es resolen amb mètodes de punt interior que s'inicialitzen amb tècniques de warm start per tal d'accelerar la convergència cap a la nova solució. Aquest procediment resulta ser molt més eficient que el de generació de columnes. La modelització i els casos de prova estan basats en dades d'un sistema de pool pur i de mercat com ha estat a Espanya fins el juliol de 2006. / This thesis presents an approach to the long-term planning of power generation for a company (SGC) participating in a liberalized market organized as a pool. The goal of this thesis is two-fold: to model the problem and to develop and implement appropriate and efficient techniques for solving it.The optimization of the long-term generation planning is important for budgeting and planning fuel acquisitions, and to give a frame where to fit short-term generation planning.Our proposal for planning long-term generation is to optimize the expected generation of each unit (or the merger of several units of the same type) in the power pool over each interval into which the long-term horizon is split.The basic model for long-term generation planning (LTGP) maximizes the profit for all the units participating in the pool. The most important constraint is matching demand, since the market always clears. The Bloom and Gallant formulation is used, which models the load with a load-duration curve for each interval and requires an exponential number of linear inequality constraints, called herein LMCs. Other (linear) constraints included in the model are: minimum generation time, limits on the availability of fuel, maximum CO2 emission limits or the market share of the SGC. This thesis also proposes the way in which coordination between the LTGP model developed and a short-term plan should be considered and provides a model for short-term electrical power planning adapted to the LTGP proposed and which includes the long-term results.Another decision that needs to be taken from a long-term point of view is the joint scheduling of thermal unit maintenances with the generation planning of a particular SGC. The results of a prototype of a Branch and Bound implemented in AMPL are included in this thesis.Long-term planning needs to be considered before short-term planning and whenever the real situation deviates from the forecasted parameters, so the techniques implemented must be efficient so as to provide reliable solutions in a short time. Two methods for handling the LMCs are proposed and compared:● A decomposition technique exploits the fact that the LMCs plus the non-negativity bounds define a convex polyhedron for each interval whose vertices are easy to find. Thus, the problem is transformed and the variables become the coefficients of a convex combination of the vertices. The transformed problem is quadratic with linear constraints, making it suitable to be solved with the Murtagh & Saunders algorithm, which gives an optimal solution. A column-generation approach is used because the number of vertices of the polyhedron is comparable to the number of LMCs. The advantage of this method is that it does not require previous computation of all of the vertices, but rather computes them as the algorithm iterates.● The application of direct methods is computationally difficult because of the exponential number of inequality LMCs. However, only a reduced subset of LMCs will be active at the optimizer. A heuristic, named GP heuristic, has been devised which is able to find a reduced set of LMCs including those that are active at the optimizer. It solves a sequence of quadratic problems in which the set of LMCs considered is enlarged at each iteration. The quadratic problems are solved with an interior point method, and warm starts are employed to accelerate the solution of the successively enlarged quadratic problems. This procedure is more efficient than the column generation one.The modeling and tests of this thesis are based on the pure pool system and market data from the Spanish system up to July 2006. 311 - Estadística 51 - Matemàtiques
69	MonteCarlo: toolbox de Matlab. Herramientas para un laboratorio de estadística fundamentado en técnicas Monte Carlo Losilla Vidal, Josep Maria 09 January 1994 (has links) No description available. Ciències de la Salut 311 - Estadística
70	The analysis of interval-censored survival data. From a Nonparametric perspective to a nonparametric Bayesian approach Calle, M. Luz 27 February 1997 (has links) This work concerns some problems in the area of survival analysis that arise in real clinical or epidemiological studies. In particular, we approach the problem of estimating the survival function based on interval-censored data or doubly-censored data. We will start defining these concepts and presenting a brief review of different methodologies to deal with this kind of censoring patterns.Survival analysis is the term used to describe the analysis of data that correspond to the time from a well defined origin time until the occurrence of some particular event of interest. This event need not necessarily be death, but could, for example, be the response to a treatment, remission from a disease, or the occurrence of a symptom 311 - Estadística 51 - Matemàtiques

Search results