Global ETD Search

51	A beta inflated mean regression model with mixed effects for fractional response variables Fernández Villegas, Renzo 20 June 2017 (has links) In this article we propose a new mixed effects regression model for fractional bounded response variables. Our model allows us to incorporate covariates directly to the expected value, so we can quantify exactly the influence of these covariates in the mean of the variable of interest rather than to the conditional mean. Estimation is carried out from a Bayesian perspective and due to the complexity of the augmented posterior distribution we use a Hamiltonian Monte Carlo algorithm, the No-U-Turn sampler, implemented using Stan software. A simulation study for comparison, in terms of bias and RMSE, was performed showing that our model has a better performance than other traditional longitudinal models for bounded variables. Finally, we applied our Beta Inflated mixed-effects regression model to real data which consists of utilization of credit lines in the peruvian financial system. / En este artículo proponemos un nuevo modelo de regresión con efectos mixtos para variables acotadas fraccionarias. Este modelo nos permite incorporar covariables directamente al valor esperado, de manera que podemos cuantificar exactamente la influencia de estas covariables en la media de la variable de interés en vez de en la media condicional. La estimación se llevó a cabo desde una perspectiva bayesiana y debido a la complejidad de la distribución aumentada a posteriori usamos un algoritmo de Monte Carlo Hamiltoniano, el muestreador No-U-Turn, que se encuentra implementado en el software Stan. Se realizó un estudio de simulación que compara, en términos de sesgo y RMSE, el modelo propuesto con otros modelos tradicionales longitudinales para variables acotadas, resultando que el primero tiene un mejor desempeño. Finalmente, aplicamos nuestro modelo de regresión Beta Inflacionada con efectos mixtos a datos reales los cuales consistían en información de la utilización de las líneas de crédito en el sistema financiero peruano. / Tesis Estadística bayesiana Análisis de regresión Estadística--Modelos matemáticos
52	Modelos de regresión binaria Skew probit para el calculo de probabilidad de default en el ámbito del sistema financiero Pantoja Marin, Luis 05 February 2013 (has links) La presente investigación se fundamenta en el uso o aplicación de Modelos Skew Probit con enlace asimétrico desde un enfoque Bayesiano. Los modelos a usar incorporan la posibilidad de usar enlaces asimétricos para estimar la probabilidad de y i =1 en muestras no balanceadas (alta proporción de ceros y por ende pequeña proporción de unos). La formulación general de esto modelos es debida a Bazán, Bolfarine y Branco (2010). Aunque en estos modelos inicialmente su computación es complicada se usaron Cadenas de Markov por Monte Carlo (MCMC) o muestreo Gibbs (para la aplicación de estos procedimientos ver Carlin y Polson, 1992) que hacen simple la formulación del modelo y por tanto simple su implementación usando el software WinBugs (los códigos de los diferentes modelos utilizados fueron obtenidos en el programa BRMUW propuesto por Bazán y Bayes, 2010). De acuerdo al análisis y estudio de aplicación realizado sobre una muestra de clientes de préstamos pertenecientes a una entidad micro financiera, aquellos modelos Skew Probit BBB y Estándar presentan los mejores indicadores de eficiencia. El análisis sobre datos reales señala que el modelo tradicional Probit presenta un 56.6% (371/664) de mala clasificación versus los modelos Estándar y BBB que en promedio muestran dicho indicador alrededor de 43% (290/664). El análisis mediante curvas COR (Receiver Operating Characteristic) ratifica lo mencionado; el área debajo de las curvas superan el 0.74 de 1 para el modelo BBB, mientras que dicho dato es de 0.70 para el caso del modelo simétrico tradicional probit. Por tanto la sensibilidad y especificidad (eficiencia) es mayor para aquellos modelos Skew Probit (mejor modelo BBB). Dentro de los modelos con Enlaces Asimétricos los modelos (SP) BBB y Estándar son los que presentan mejores indicadores de ajuste e información as__ como mejoran la sensibilidad y especificidad de un determinado modelo. Finalmente, se pretende la sistematización de la propuesta a nivel de la entidad micro financiera y su aplicación en la estimación de la probabilidad de default de créditos pero aplicado en todos los tipos de créditos. / Tesis Estadística bayesiana Estadística Modelos matemáticos Análisis de regresión
53	Estadística Aplicada 1 (MA131), ciclo 2013-1 Chávez Ramos, Manuel Raymundo 03 1900 (has links) Separata del curso Estadística Aplicada 1 (MA131), que corresponde al ciclo 2013-1. Contenido: 1. Estadística: estadística descriptiva e inferencial. 2. Definiciones básicas. 3. Escala de mediciones: escala nominal, escala ordinal, escala de intervalos y escala de razón. 4. Tipos de variables: variables cualitativas y variables cuantitativas. 5. Problemas resueltos de conceptos básicos. 6. Problemas propuestos de conceptos básicos. Estadística descriptiva Inferencia estadística Variables Guías de estudio
54	Cálculo de la media y la desviación estándar usando una calculadora Casio FX 100MS Luna Flores, Wálter 07 April 2006 (has links) Es un tutorial para el cálculo de la media artimética y la desviación estándar, poblacional y muestral, en algunos modelos de las calculadoras Casio. En la versión 2 se muestra el cálculo para datos simples y datos agrupados en distribuciones de frecuencias. Estadística descriptiva Estadística Media Desviación estándar
55	Manual de Estadística Aplicada a los Negocios (CE75), 2013 Flores Chinte, Milagros, Acosta Ramírez, Salomón 18 April 2013 (has links) El presente manual desarrolla temas básicos de estadística descriptiva y algunos temas de estadística inferencial. Estadística descriptiva Inferencia estadística Guías de estudio
56	Estadística Aplicada 1 (MA131), ciclo 2013-2 Chávez Ramos, Manuel Raymundo 16 July 2013 (has links) Cuaderno de trabajo del curso Estadística Aplicada 1 (MA131), que corresponde al ciclo 2013-2. Contenido: 1. Estadística: estadística descriptiva e inferencial. 2. Definiciones básicas. 3. Escala de mediciones: escala nominal, escala ordinal, escala de intervalos y escala de razón. 4. Tipos de variables: variables cualitativas y variables cuantitativas. 5. Problemas resueltos de conceptos básicos. 6. Problemas propuestos de conceptos básicos. Estadística descriptiva Inferencia estadística Variables Guías de estudio
57	Medium-term power planning in electricity markets with renewable generation sources Marí Tomàs, Laura 25 September 2015 (has links) The problem addressed in this thesis is the medium-term generation planning over a yearly horizon of a generation company participating in a liberalized electricity market with pool auction of generation and consumption and with bilateral contracts between generation companies and distributions companies or big consumers. It is assumed that the generation portfolio of several generation companies includes a significant proportion of dispatchable renewables (hydro generation with storage reservoirs and pumping schemes) and non-dispatchable renewables as wind power and solar photovoltaic generation. It is also assumed than more than one generation company are able to influence market-price levels through their bidding in the auction so that the market could be oligopolistic. The results obtained are of interest to price-maker generation companies, but also to price-taker generators, and to the market operator to check whether the participants in the market behave as a cartel or seeking an equilibrium. The stochasticity of parameters in the medium-term planning is modeled in two ways. Regarding consumers load and generation unit outages, through the use of the probabilistic method of load matching: by representing the load through predicted load-duration curves of each period into which the yearly horizon is subdivided, by considering the capacity and an outage probability of each generation unit and by using the existing convolution techniques and the linear-inequality load-matching constraints. Regarding renewable energy sources, stochastic programming is used. Hydro-generation scenarios of inflows are developed for each period. As for non-dispatchable renewables (wind power and solar photo-voltaic generation), a novel model of representing them through two pseudo-units: one base unit with small outage probability and a crest unit with large outage probability is proposed, and scenarios are developed for the relevant parameters of the pseudo-units. The solar photo-voltaic generation model requires splitting each period into three subperiods with the dark hours, with the medium-light hours and with the bright hours. Quasi-Monte Carlo techniques have been employed to create a large scenario fan later reduced to a scenario tree with a reduced number of scenarios. Market prices are taken into account through an endogenous linear market-price function of load duration whose intercept depends on total hydro generation level and on wind power and solar photovoltaic level in each node of the scenario tree. With such market price function, the endogenous cartel solution and the equilibrium solutions to the medium-term planning can be obtained. To avoid having to consider the total exponential number of load-matching constraints, a load matching heuristic has been employed where small batches of new load matching constraints are generated after successive optimizations considering only the generated load matching constraints. For equilibrium solutions, the Nikaido-Isoda relaxation algorithm of successive solutions is employed using the successive optimizations of the load-matching heuristic. In mixed-market systems with auction and bilateral contracts, a time-share hypothesis is formulated and the profits function for generation companies with the generation left after honoring their bilateral contracts is formulated. The profit function obtained is non-convex, and a direct global optimization solver was tried, but proved not to be practical for the size of problem to be solved. A non-linear interior-point constrained optimization solver, also employed for problems in pure pool markets, was tried with several special techniques to circumvent the troubles caused by the non-convexity of the objective function and satisfactory results were obtained. A novel model of multi-period medium-term pumping was presented and employed. Results for several realistic test cases having different generation settings have been presented and analyzed. / El problema adreçat en aquesta tesi és el de la planificació a mig termini de la generació elèctrica d'una companyia que participa dins d'un mercat elèctric. S'ha assumit que aquestes companyies generadores disposen d'una proporció significant d'energies renovables despatxables (com la generació hidràulica amb embassaments d'emmagatzematge i sistemes de bombeig) i d'energies renovables no-despatxables tals com l'energia eòlica i la generació d'energia solar fotovoltaica. També s’ha tingut en compte que més d'una companyia generadora és capaç d'influir en els nivells de preu de mercat a través de les seves ofertes dins de la subhasta tractant-se, doncs, d'un mercat oligopolístic. Els resultats obtinguts són interessants per a companyies generadores del tipus 'price-maker', però alhora també ho són per companyies 'price-taker' i, finalment, també ho són per a l'operador del mercat per tal de comprovar si els participants en el mercat es comporten com si hi hagués 'cartel' o si bé busquen l'equilibri. L'estocasticitat de la càrrega i les panes de les unitats de generació dins de la planificació a mig termini es modela mitjançant l'ús del mètode probabilístic de recobriment de la càrrega: tot representant la càrrega a través de corbes predites de durada de la càrrega per a cada període tractat, utilitzant tècniques existents de convolucions i les anomenades constriccions de recobriment de la càrrega que són de desigualtat i lineals. Pel que fa a les energies renovables s'ha emprat programació estocàstica. Per a cada període s'han desenvolupat escenaris d'hidràulica per a les aportacions naturals d'aigua. Pel que fa a les renovables no-despatxables (eòlica i solar), es presenta un nou model per a representar-les a través de dues pseudo-unitats: una unitat de base amb una probabilitat de pana molt petita i una unitat de cresta amb una probabilitat de pana gran. La generació solar requereix un model més complex ja que s'han dividit les hores solars en tres subperíodes: sense sol, sol mig i sol. També s'han creat escenaris per als paràmetres més rellevants d'aquestes pseudo-unitats. S'han emprat mètodes de Quasi-Monte Carlo per a crear un gran arbre d'escenaris de tipus FAN que, posteriorment, s'ha reduït a un arbre d'escenaris d'una determinada mida. La funció de preu de mercat respecte a la durada de la càrrega és una funció endògena on es té en compte la variació observada del nivell dels preus amb la generació hidràulica, la generació eòlica i la solar a cada node dins de l'arbre d'escenaris. Amb aquest tipus de funció de preu de mercat, les solucions de cartel i les d'equilibri poden ser obtingudes. Per tal de no haver de considerar un nombre exponencial de constriccions de recobriment, s'utilitza una heurística on petits subconjunts de restriccions es van generant després de successives optimitzacions considerant només les constriccions de recobriment generades. Per a les solucions d'equilibri, s'ha utilitzat l'algoritme de relaxació de Nikaido-Isoda en les successives optimitzacions de l'heurística. Pels mercats mixtos (amb subhasta i contractes bilaterals) s'ha formulat una hipòtesi de 'time-share' i s’ha presentat una funció de beneficis de les empreses generadores on només es té en compte la generació que resta després d'haver satisfet els contractes bilaterals. La funció obtinguda és no convexa i s'ha utilitzat un resolutor d'optimització global, però s'ha vist que no era pràctic per a la mida del problema que s'estava solucionant. Per aquest motiu, s'ha utilitzat un resolutor no lineal de punt interior (Ipopt) amb diverses tècniques especials per tal d'eludir els problemes causats per la no convexitat de la funció objectiu tot obtenint resultats satisfactoris. Finalment, s'ha presentat i s'ha utilitzat un nou mètode per introduir els esquemes de bombeig multi-període i a mig termini. Es mostren i s'analitzen els resultats obtinguts per a diversos casos de prova (realistes) amb diferents configuracions de generació. 311 - Estadística 51 - Matemàtiques
58	La imputación múltiple y su aplicación a series temporales financieras Cano Berlanga, Sebastian 19 November 2013 (has links) Cuando una base de datos presenta valores no disponibles (NA ó missings), su análisis es imposible hasta que no se decida lo que hacer con ellos. A tal efecto, la literatura ha desarrollado distintos enfoques para enfrentarse a este problema. Los primero métodos fueron los basados en regresión (Yates [1933]), y posteriormente se utilizaron algoritmos basados en la función de verosimilitud (algoritmo EM). Rubin [1987] estudia el problema de los NA y pone de manifiesto que los algoritmos mencionados son de imputación única y, entre sus inconvenientes más importantes, destaca la omisión de la incertidumbre que causa la presencia de los missings en el ulterior análisis. Para tal fin, Rubin [1987] propone la imputación múltiple, cuyo objetivo es la medición de la incertidumbre omitida por los métodos de imputación única, lo que se consigue mediante dos herramientas: algoritmos MCMC y la inferencia de Rubin. La imputación múltiple se ha utilizado únicamente en el campo de los datos de sección cruzada, y esta Tesis pretende extender su aplicación al campo de la series temporales financieras. Para tal fin, se estudian las técnicas que sobre las que se fundamentan los métodos MCMC, la inferencia de Rubin y los modelos heteroscedásticos condicionados. El resultado es la imputación mediante separación, que consigue adaptar la técnica de imputación múltiple a las series temporales financieras mediante la combinación de un filtro asimétrico, un método Bootstrap y el conocido algoritmo GibbsSampling. La Tesis se extiende con un librería programada en lenguaje R, de próxima incorporación en el cuerpo de librerías contribuidas en el portal oficial del citado lenguaje, que implementa el método propuesto. / When a database contains missing values, the forthcoming analysis becomes impossible until one decides how to deal with them. That is the reason why the literature has developed different ways to solve problems associated with NA values. The first methods of this specific literature were regression-based (Yates [1933]), but later more sophisticated algorithms were available (EM algorithm). Rubin [1987] makes a deep analysis on the topic and develops Multiple Imputation, a Monte Carlo technique in which the missing values are replaced by m>1 simulated versions, where m is typically small (e.g. 3-10). In Rubin's method for `repeated imputation' inference, each of the simulated complete datasets is analyzed by standard methods, and the results are combined to produce estimates and confidence intervals that incorporate missing-data uncertainty. Multiple Imputation has been widely used in cross section studies but not in time series. This doctoral thesis aims to extend Multiple Imputation to longitudinal studies, specifically to financial time series. To do so, we propose a method based on an asymmetric filter which splits the original time series in conditional variance and innovations. This procedure allows us to generate plausible values combining the algorithms Gibbs Sampling and Approximate Bayesian Bootstrap. The validity of the proposed method is discussed through extensive tests on different financial time series (firms and market indices). The analysis of empirical tests displays that, after imputing the data, they maintain its individual characteristics. Furthermore, results exhibit high precision in the shape parameter of the conditional distribution of returns, and densities of both conditional variance and innovations. 311 - Estadística 33 - Economia
59	Machine learning methods for the analysis of liquid chromatography-mass spectrometry datasets in metabolomics Fernández Albert, Francesc 30 October 2014 (has links) Tesi per compendi de publicacions / Liquid Chromatography-Mass Spectrometry (LC/MS) instruments are widely used in Metabolomics. To analyse their output, it is necessary to use computational tools and algorithms to extract meaningful biological information. The main goal of this thesis is to provide with new computational methods and tools to process and analyse LC/MS datasets in a metabolomic context. A total of 4 tools and methods were developed in the context of this thesis. First, it was developed a new method to correct possible non-linear drift effects in the retention time of the LC/MS data in Metabolomics, and it was coded as an R package called HCor. This method takes advantage of the retention time drift correlation found in typical LC/MS data, in which there are chromatographic regions in which their retention time drift is consistently different than other regions. Our method makes the hypothesis that this correlation structure is monotonous in the retention time and fits a non-linear model to remove the unwanted drift from the dataset. This method was found to perform especially well on datasets suffering from large drift effects when compared to other state-of-the art algorithms. Second, it was implemented and developed a new method to solve known issues of peak intensity drifts in metabolomics datasets. This method is based on a two-step approach in which are corrected possible intensity drift effects by modelling the drift and then the data is normalised using the median of the resulting dataset. The drift was modelled using a Common Principal Components Analysis decomposition on the Quality Control classes and taking one, two or three Common Principal Components to model the drift space. This method was compared to four other drift correction and normalisation methods. The two-step method was shown to perform a better intensity drift removal than all the other methods. All the tested methods including the two-step method were coded as an R package called intCor and it is publicly available. Third, a new processing step in the LC/MS data analysis workflow was proposed. In general, when LC/MS instruments are used in a metabolomic context, a metabolite may give a set of peaks as an output. However, the general approach is to consider each peak as a variable in the machine learning algorithms and statistical tests despite the important correlation structure found between those peaks coming from the same source metabolite. It was developed an strategy called peak aggregation techniques, that allow to extract a measure for each metabolite considering the intensity values of the peaks coming from this metabolite across the samples in study. If the peak aggregation techniques are applied on each metabolite, the result is a transformed dataset in which the variables are no longer the peaks but the metabolites. 4 different peak aggregation techniques were defined and, running a repeated random sub-sampling cross-validation stage, it was shown that the predictive power of the data was improved when the peak aggregation techniques were used regardless of the technique used. Fourth, a computational tool to perform end-to-end analysis called MAIT was developed and coded under the R environment. The MAIT package is highly modular and programmable which ease replacing existing modules for user-created modules and allow the users to perform their personalised LC/MS data analysis workflows. By default, MAIT takes the raw output files from an LC/MS instrument as an input and, by applying a set of functions, gives a metabolite identification table as a result. It also gives a set of figures and tables to allow for a detailed analysis of the metabolomic data. MAIT even accepts external peak data as an input. Therefore, the user can insert peak table obtained by any other available tool and MAIT can still perform all its other capabilities on this dataset like a classification or mining the Human Metabolome Dataset which is included in the package. 004 - Informàtica 311 - Estadística
60	Medidas de diferencia y clasificación automática no paramétrica de datos composicionales Martín Fernández, Josep Antoni 23 March 2001 (has links) Es muy frecuente encontrar datos de tipo composicional en disciplinas tan dispares como son, entre otras, las ciencias de la tierra, la medicina, y la economía. También es frecuente en estos ámbitos el uso de técnicas de clasificación no paramétrica para la detección de agrupaciones naturales en los datos. Sin embargo, una búsqueda bibliográfica bastante exhaustiva y la presentación de resultados preliminares sobre el tema en congresos de ámbito internacional han permitido constatar la inexistencia de un cuerpo teórico y metodológico apropiado que permita desarrollar pautas y recomendaciones a seguir en el momento de realizar una clasificación no paramétrica de datos composicionales. Por estos motivos se ha elegido como tema de tesis la adaptación y desarrollo de métodos de agrupación adecuados a datos de naturaleza composicional, es decir, datos tales que el valor de cada una de sus componentes expresa una proporción respecto de un total. El título de la misma, "Medidas de diferencia y clasificación automática no paramétrica de datos composicionales", recoge no sólo este propósito, sino que añade la expresión "medidas de diferencia" con el propósito de reflejar el peso específico importante que tiene el estudio de este tipo de medida en el desarrollo del trabajo. La expresión "no paramétrica'' se refiere a que en la misma no se considerarán técnicas de clasificación que presuponen la existencia de un modelo de distribución de probabilidad para las observaciones objeto de la agrupación. La memoria de la tesis se inicia con un capítulo introductorio donde se presentan los elementos básicos de las técnicas de clasificación automática no paramétrica. Se pone especial énfasis en aquellos elementos susceptibles de ser adaptados para su aplicación en clasificaciones de datos composicionales. En el segundo capítulo se aborda el análisis de los conceptos más importantes en torno a los datos composicionales. En este capítulo, los esfuerzos se han concentrado principalmente en estudiar las medidas de diferencia entre datos composicionales junto con las medidas de tendencia central y de dispersión. Con ello se dispone de las herramientas necesarias para proceder al desarrollo de una metodología apropiada para la clasificación no paramétrica de datos composicionales, consistente en incorporar los elementos anteriores a las técnicas habituales y adaptarlas en la medida de lo necesario. El tercer capítulo se dedica exclusivamente a proponer nuevas medidas de diferencia entre datos composicionales basadas en las medidas de divergencia entre distribuciones de probabilidad. En el cuarto capítulo se incorporan las peculiaridades de los datos composicionales a las técnicas de clasificación y se exponen las pautas a seguir en el uso práctico de estas técnicas. El capítulo se completa con la aplicación de la metodología expuesta a un caso práctico. En el quinto capítulo de esta tesis se aborda el denominado problema de los ceros. Se analizan los inconvenientes de los métodos usuales de substitución y se propone una nueva fórmula de substitución de los ceros por redondeo. El capítulo finaliza con el estudio de un caso práctico. En el epílogo de esta memoria se presentan las conclusiones del trabajo de investigación y se indican la líneas futuras de trabajo. En los apéndices finales de esta memoria se recogen los conjuntos de datos utilizados en los casos prácticos que se han desarrollado en la presente tesis. Esta memoria se completa con la lista de las referencias bibliográficas más relevantes que se han consultado para llevar a cabo este trabajo de investigación. / On March 23, 2001 Josep Antoni Martín-Fernández from the Dept. of Computer Sciences and Applied Mathematics of the University of Girona (Catalonia-Spain), presented his PhD thesis, entitled "Measures of difference and non-parametric cluster analysis for compositional data" at the Technical University of Barcelona. A short resumee follows:Compositional data are by definition proportions of some whole. Thus, their natural sample space is the open simplex and interest lies in the relative behaviour of the components. Basic operations defined on the simplex induce a vector space structure, which justifies the developement of its algebraic-geometric structure: scalar product, norm, and distance. At the same time, hierarchic methods of classification require to establish in advance some or all of the following measures: difference, central tendency and dispersion, in accordance with the nature of the data. J. A. Martín-Fernández studies the requirements for these measures when the data are compositional in type and presents specific measures to be used with the most usual non-parametric methods of cluster analysis. As a part of his thesis he also introduced the centering operation, which has been shown to be a powerful tool to visualize compositional data sets. Furthermore, he defines a new dissimilarity based on measures of divergence between multinomial probability distributions, which is compatible with the nature of compositional data. Finally, J. A. Martín-Fernández presents in his thesis a new method to attack the "Achilles heel" of any statistical analysis of compositional data: the presence of zero values, based on a multiplicative approach which respects the essential properties of this type of data. 1209. Estadística 51 - Matemàtiques

Search results