Global ETD Search

1	Análisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados Melo Martínez, Sandra Esperanza 06 September 2012 (has links) Se propusieron varias metodologías para analizar datos longitudinales (en forma univariante, mediante MANOVA, en curvas de crecimiento y bajo respuesta no normal mediante modelos lineales generalizados) usando distancias entre observaciones (o individuos) con respecto a las variables explicativas con variables respuesta de tipo continuo. En todas las metodologías propuestas al agregar más componentes de la matriz de coordenadas principales se encuentra que se gana en las predicciones con respecto a los modelos clásicos. Por lo cual resulta ser una metodología alternativa frente a la clásica para realizar predicciones. Se probó que el modelo MANOVA con DB y la aproximación univariante longitudinal con DB generan resultados tan robustos como la aproximación de MANOVA clásica y univariante clásica para datos longitudinales, haciendo uso en la aproximación clásica de máxima verosimilitud restringida y mínimos cuadrados ponderados bajo condiciones de normalidad. Los parámetros del modelo univariante con DB fueron estimados por el método de máxima verosimilitud restringida y por mínimos cuadrados generalizados. Para la aproximación MANOVA con DB se uso mínimos cuadrados bajo condiciones de normalidad. Además, se presentó como realizar inferencia sobre los parámetros involucrados en el modelo para muestras grandes. Se explicó también una metodología para analizar datos longitudinales mediante modelos lineales generalizados con distancias entre observaciones con respecto a las variables explicativas, donde se encontraron resultados similares a la metodología clásica y la ventaja de poder modelar datos de respuesta continua no normal en el tiempo. Inicialmente, se presenta el modelo propuesto, junto con las ideas principales que dan su origen, se realiza la estimación de parámetros y el contraste de hipótesis. La estimación se hace aplicando la metodología de ecuaciones de estimación generalizada (EEG). Por medio de una aplicación en cada capítulo se ilustraron las metodologías propuestas. Se ajusto el modelo, se obtuvo la estimación de los diferentes parámetros involucrados, se realizó la inferencia estadística del modelo propuesto y la validación del modelo propuesto. Pequeñas diferencias del método DB con respecto al clásico fueron encontradas en el caso de datos mixtos, especialmente en muestras pequeñas de tamaño 50, resultado obtenido de la simulación. Mediante simulación para algunos tamaños de muestra se encontró que el modelo ajustado DB produce mejores predicciones en comparación con la metodología tradicional para el caso en que las variables explicativas sean mixtas utilizando la distancia de Gower. En tamaños de muestras pequeñas 50, independiente del valor de la correlación, las estructuras de autocorrelación, la varianza y el número de tiempos, usando los criterios de información Akaike y Bayesiano (AIC y BIC). Además, para muestras pequeñas de tamaño 50 se encuentra más eficiente (eficiencia mayor a 1) el método DB en comparación con el método clásico, bajo los diferentes escenarios considerados. Otro resultado importante es que el método DB presenta mejor ajuste en muestras grandes (100 y 200), con correlaciones altas (0.5 y 0.9), varianza alta (50) y mayor número de mediciones en el tiempo (7 y 10). Cuando las variables explicativas son solamente de tipo continuo o categórico o binario, se probó que las predicciones son las mismas con respecto al método clásico. Adicionalmente, se desarrollaron los programas en el software R para el análisis de este tipo de datos mediante la metodología clásica y por distancias DB para las diferentes propuestas en cada uno de los capítulos de la tesis, los cuales se anexan en un CD dentro de la tesis. Se esta trabajando en la creación de una librería en R con lo ya programado, para que todos los usuarios tengan acceso a este tipo de análisis. Los métodos propuestos tienen la ventaja de poder hacer predicciones en el tiempo, se puede modelar la estructura de autocorrelación, se pueden modelar datos con variables explicativas mixtas, binarias, categóricas o continuas, y se puede garantizar independencia en las componentes de la matriz de coordenadas principales mientras que con las variables originales no se puede garantizar siempre independencia. Por último, el método propuesto produce buenas predicciones para estimar datos faltantes, ya que al agregar una o más componentes en el modelo con respecto a las variables explicativas originales de los datos, se puede mejorar el ajuste sin alterar la información original y por consiguiente resulta ser una buena alternativa para el análisis de datos longitudinales y de gran utilidad para investigadores cuyo interés se centra en obtener buenas predicciones. / LONGITUDINAL AND MULTIVARIATE DATA ANALYSIS THROUGH DISTANCES WITH GENERALIZED LINEAR MODELS We are introducing new methodologies for the analysis of longitudinal data with continuous responses (univariate, multivariate for growth curves and with non-normal response using generalized linear models) based on distances between observations (or individuals) on the explicative variables. In all cases, after adding new components of the principal coordinate matrix, we observe a prediction improvement with respect to the classic models, thus providing an alternative prediction methodology to them. It was proven that both the distance based MANOVA model and the univariate longitudinal models are as robust as the classical counterparts using restricted maximum likelihood and weighted minimum squares under normality assumptions. The parameters of the distance based univariate model were estimated using restricted maximum likelihood and generalized minimum squares. For the distance based MANOVA we used minimum squares under normality conditions. We also showed how to perform inference on the model parameters on large samples. We indicated a methodology for the analysis of longitudinal data using generalized linear models and distances between the explanatory variables, where the results were similar to the classical approach. However, our approach allowed us to model continuous, non-normal responses in the time. As well as presenting the model and the motivational ideas, we indicate how to estimate the parameters and hypothesis test on them. For this purpose we use generalized estimating equations (EEG). We present an application case in each chapter for illustration purposes. The models were fit and validated. After performing some simulations, we found small differences in the distance based method with respect to the classical one for mixed data, particularly in the small sample setting (about 50 individuals). Using simulation we found that for some sample sizes, the distance based models improve the traditional ones when explanatory variables are mixed and Gower distance is used. This is the case for small samples, regardless of the correlation, autocorrelation structure, the variance, and the number of periods when using both the Akaike (AIC) and Bayesian (BIC) Information Criteria. Moreover, for these small samples, we found greater efficiency (>1) in our model with respect to the classical one. Our models also provide better fits in large samples (100 or 200) with high correlations (0.5 and 0.9), high variance (50) and larger number of time measurements (7 and 10). We proved that the new and the classical models coincide when explanatory variables are all either continuous or categorical (or binary). We also created programs in R for the analysis of the data considered in the different chapters of this thesis in both models, the classical and the newly proposed one, which are attached in a CD. We are currently working to create a public, accessible R package. The main advantages of these methods are that they allow for time predictions, the modelization of the autocorrelation structure, and the analysis of data with mixed variables (continuous, categorical and binary). In such cases, as opposed to the classical approach, the independency of the components principal coordinate matrix can always be guaranteed. Finally, the proposed models allow for good missing data estimation: adding extra components to the model with respect to the original variables improves the fit without changing the information original. This is particularly important in the longitudinal data analysis and for those researchers whose main interest resides in obtaining good predictions. Mínims quadrats Mínimos cuadrados Least squares Correlació (Estadística) Correlación (Estadística) Correlation (Statistics) Distància de Gower Distancia de Gower Gower's Distance Ciències Experimentals i Matemàtiques 311
2	Análisis Geoestadístico Espacio Tiempo Basado en Distancias y Splines con Aplicaciones Melo Martínez, Carlos Eduardo 06 September 2012 (has links) Se propusieron innovaciones en la predicción espacio y espacio-temporal, a partir de métodos geoestadísticos y de funciones de base radial (RBF), considerando métodos basados en distancias. En este sentido, por medio de las distancias entre las variables explicativas, incorporadas específicamente en la regresión basada en distancias, se propusieron modificaciones en: el método kriging universal y en la interpolación con splines espacial y espacio-temporal usando las RBF. El método basado en la distancia se utiliza en un modelo Geoestadístico para estimar la tendencia y la estructura de covarianza. Esta estrategia aprovecha al máximo la información existente, debido a la relación entre las observaciones, mediante el uso de una descomposición espectral de una distancia seleccionada y las coordenadas principales correspondientes. Para el método propuesto kriging universal basado en distancias (DBUK), se realizó un estudio de simulación que permitió comparar la capacidad predictiva del método tradicional kriging universal con respecto a kriging universal basado en distancias; mientras que en la interpolación con Splines espacial y espacio-temporal, los estudios de simulación permitieron comparar el funcionamiento de las funciones de base radial espaciales y espaciotemporales, considerando en la tendencia las coordenadas principales generadas a partir de las variables explicativas mixtas mediante el uso del método basado en distancias. El método propuesto DBUK muestra, tanto en las simulaciones como en las aplicaciones, ventajas en la reducción del error con respecto al método clásico de krigeado universal. Esta reducción de los errores se asocia a una mejor modelización de la tendencia y a un menor error en el ajuste y modelado del variograma, al considerar las coordenadas principales obtenidas a partir de las variables explicativas mixtas. Entre muchas otras posibles causas, el error es generado por omisión de variables y por considerar formas funcionales incorrectas. El estudio de simulación muestra que el método propuesto DBUK es mejor que el método de krigeado universal tradicional ya que se encontró una notoria reducción del error, asociada a un RMSPE más pequeño, esta reducción en general fue superior al 10%. El método DBUK podrá producir una mejor estimación de la variable regionalizada si el número de coordenadas principales se incrementa. Esto es posible, incluyendo las coordenadas principales más significativas tanto en modelo de tendencia como en el variograma; se presenta una aplicación que ilustra este hecho. Los métodos propuestos de interpolación espacial basada en distancias con RBF (DBSIRBF) e interpolación espacio-temporal basada en distancias con RBF (DBSTIRBF) analizados mediante una estructura de krigeado considerando en la tendencia las coordenadas principales, presentan un buen funcionamiento al trabajar con vecindarios grandes, indicando en general que se tendrá un menor error asociado a un RMSPE más pequeño En diversos estudios, la detección de variabilidad entre zonas es una tarea muy difícil, y por lo cual los métodos propuestos DBUK, DBSIRBF y DBSTIRBF son útiles de acuerdo a los resultados obtenidos en la tesis, ya que aprovechan al máximo la información existente asociada a las variables explicativas. Aunque la correlación de las variables explicativas puede ser baja con respecto a la variable respuesta, el punto clave en los métodos propuestos es la correlación entre las coordenadas principales (construida con las variables explicativas) y la variable respuesta. Los métodos propuestos se aplicaron a datos agronómicos (Concentración de calcio medido a una profundidad de 0-20 cm de Brasil) y climatológicos (Temperaturas medias diarias de la Tierra en Croacia en el año 2008). Los resultados de validación cruzada “leave-one-out” mostraron un buen rendimiento de los predictores propuestos, lo cual indica que se pueden utilizar como métodos alternos y validos a los tradicionales para el modelado de variables correlacionadas espacialmente y espacio-temporalmente, considerando siempre covariables en la remoción de la tendencia. / Space-time geostatistical analysis based on distances and splines with applications. Innovations were proposed in the space and space-time prediction, based on geostatistical methods and radial basis function (RBF), considering distance-based methods. In this sense, through the distances between the explanatory variables, specifically incorporated in the regression based on distances, changes were proposed in: the universal kriging and interpolation with space and space-time splines using RBF. The distance-based method is used in a geostatistical model to estimate the trend and the covariance structure. This strategy takes full advantage of existing information, because of the relationship between the observations, using a spectral decomposition of a selected distance and the corresponding principal coordinates. For the universal kriging method proposed based on distances (DBUK), we performed a simulation study, which allowed to compare the predictive capacity of traditional universal kriging over universal kriging based on distances. The simulation study shows that the proposed method DBUK, is better than the traditional universal kriging method and was found a marked reduction of error associated with a smaller RMSPE, this reduction was generally greater than 10%. Spatial and spatio-temporal spline interpolation in simulation studies possible to compare the performance of space and spatio-temporal radial basis functions, considering the trend in the principal coordinates generated from the mixed explanatory variables using the method based distances. The proposed spatial interpolation methods based on distances with RBF (DBSIRBF) and spatio-temporal interpolation based on distances RBF (DBSTIRBF) analyzed through kriging structure whereas in the trend the principal coordinates, show good performance when working with large neighborhoods, indicating that in general will have less error associated with a smaller RMSPE. The key point in the proposed methods is the correlation between the principal coordinates (constructed with the explanatory variables) and the response variable. The proposed methods were applied to agronomic data (concentration of calcium measured at a depth of 0-20 cm from Brazil) and climatological (average daily temperature of the Earth in Croatia in 2008). The results of cross-validation "leave-one-out" showed a good performance of the proposed predictors, indicating that can be used as alternative methods to traditional and valid for the modeling of spatially correlated variables in space and time, always considering covariates in the removal of the trend. Distancia de Gower Distància de Gower Gower's Distance Geoestadística Geostatistics Kriging universal basado en distancias Kriging universal basat a distàncies Universal Kriging based on distances Funcions de base radial espai-temporals Radial basis spatiotemporal functions Variables regionalizadas mixtas Variables regionalitzades mixtes Regionalized mixed variables Coordenades principals Coordenadas principales Principal coordinates Simulaciones incondicionales Simulacions incondicionals Unconditional simulations Ciències Experimentals i Matemàtiques 311

Search results

Análisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados

Análisis Geoestadístico Espacio Tiempo Basado en Distancias y Splines con Aplicaciones