Return to search

Aspectos geométricos de las poblaciones y los individuos estadísticos

Comenzarnos realizando una aproximación al concepto de modelo estadístico desde el punto de vista geométrico, centrándonos principalmente en consideraciones sobre la introducción de distancias, y en particular estudiando la métrica informacional y sus propiedades.

Dada una variedad paramétrica correspondiente a un modelo estadístico, hemos efectuado un estudio del espacio tangente y del espacio tangente dual en un punto a la variedad, introduciendo representaciones adecuadas de los mismos. Tales representaciones han permitido identificar a los elementos del espacio muestral con campos tensoriales covariantes de primer orden en la variedad, mientras que las variables aleatorias pueden ser identificados con campos tensoriales contravariantes también de primer orden.

Hemos introducido dos definiciones de distancias, en sentido estricto pseudodistancias, entre valores muestrales basadas ambas en distancias en el espacio tangente dual entre formas lineales asociadas. La primera, a la que denominamos distancia inmediata, es definida a partir de la distancia euclídea en el espacio tangente dual. Se han obtenido expresiones explícitas para la distancia cuando los individuos estadísticos son muestras correspondientes a las distribuciones Poisson, Weibull, Gamma, Exponencial, Binomial, Binomial Negativa, Multinomial, Multinomial negativa, Wald, Logística, Normal univariante y Normal multivariante. Se han estudiarlo ciertas propiedades relacionadas con la distancia inmediata, entre las que destacamos su invarianza frente a cambios de la medida de referencia y transformaciones por estadísticas suficientes, y su no decrecimiento al aumentar el número de parámetros de las variedades.

La distancia estructural es definida a partir de la distancia sobre el conjunto imagen del espacio muestral. Se demuestra que coincide con la distancia inmediata si el conjunto imagen es un conjunto convexo y también que dicho conjunto no es convexo si la dimensión del espacio muestral es uno y el número de parámetros de la variedad mayor o igual a dos. Se ha obtenido la expresión explícita para la distancia estructural entre muestras de tamaño uno correspondientes a una distribución normal univariante.

Se han estudiado las aplicaciones de las distancias entre individuos a técnicas clásicas de inferencia estadística, definiendo nuevos procedimientos de estimación de parámetros y contraste de hipótesis desde el punto de vista geométrico. Se comprueba cómo utilizando la distancia inmediata se recuperan gran parte de los resultados clásicos, en particular las ecuaciones de verosimilitud y el contraste de hipótesis mediante el test de los multiplicadores de Lagrange. Hemos comprobado también como utilizando en estimación de parámetros la distancia estructural en un ejemplo en que éste difiere de la inmediata, se obtienen resultados que difieren respecto a la máxima verosimilitud clásica y que podemos considerar más acordes con resultados intuitivos al dejar indeterminada la estimación de la varianza trabajando con muestras de tamaño uno de una distribución Normal univariante.

Se ha introducido una clase de funciones de densidad de probabilidad que pueden ser caracterizadas en una variedad paramétrica de dimensión finita. Se comprueba que las variedades resultantes son de curvatura constante y positiva. Se han obtenido las expresiones para las geodésicas y la distancia de Rao entre dos distribuciones. Hemos efectuado un estudio probabilístico en varios ejemplos y finalmente consideramos la aplicación de tales familias a la estimación no paramétrica de funciones de densidad gracias a su capacidad de adaptación.

Se ha abordado el problema de la estimación de parámetros en las familias anteriormente citadas. Comprobamos los inconvenientes de la estimación máximo verosímil y para subsanarlos hemos propuesto un algoritmo tipo “stepwise” que toma en cuenta la significación de los incrementos de la verosimilitud al modificar el número de parámetros de las familias. Utilizamos diversas simulaciones para comprobar la bondad del algoritmo, obteniendo resultados satisfactorios tanto al trabajar con distribuciones clásicos como con las nuevas familias. Se han comparado los resultados con otros métodos clásicos de estimación no paramétrica, en particular con el método de los Kernel.

También se ha estudiado el método de minimizar la esperanza del cuadrado de la distancia estructural entre individuos (MESD). Para poder llevar a cabo tal estudio se ha desarrollado una aproximación a la distinción Riemanniana y se han utilizado técnicas de minimización numérica de funciones de varias variables con restricciones. Se han obtenido algunos ejemplos que muestran un mejor comportamiento de la estimación MESD frente a la MLE.

Finalmente se han considerado dos ejemplos prácticos consistentes en la estimación de una función de densidad bimodal a partir de unos datos en forma de histograma y en la clasificación de diversos patrones electroforéticos asimilándolos a funciones de densidad. En limbos ejemplos los resultados parecen validar completamente la metodología empleada. / We have studied the concept of statistical model from a geometric point of view considering particularly the information metric and the problem of introducing distances. Given a parametric manifold representing a statistical model and given a point of the manifold, we have defined two different distances between elements of sample space (statistical individuals) by means of a suitable representation of statistical individuals as linear forms of the dual tangent space to the manifold in the given point. Some properties have been studied and the explicit expressions for some examples have been obtained.

Several techniques of statistical inference: parameter estimation, hypothesis tests, discrimination; have been studied in the light of the distances between elements of sample spaces. Some classical results have been recovered, in particular Iikelihood equations and Lagrange multipliers test.

We have introduced a class of probability density functions that may be represented in finite dimensional manifolds. Geometrical properties of such manifolds have been studied and the Rao distance between two distributions has been obtained. We have considered several examples.

We have also studied the problem of parameter estimation in the functions defined previously; we have developed a stepwise algorithm for nonparametric density estimation in order to some problems arising with classical maximum likelihood estimation when we handle a large number of parameters.

We also present some examples applied lo biological data.

Identiferoai:union.ndltd.org:TDX_UB/oai:www.tdx.cat:10803/31912
Date17 April 1991
CreatorsMiñarro Alonso, Antonio
ContributorsOller i Sala, Josep Maria, Universitat de Barcelona. Departament d'Estadística
PublisherUniversitat de Barcelona
Source SetsUniversitat de Barcelona
LanguageSpanish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format221 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
Rightsinfo:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Page generated in 0.0087 seconds