Global ETD Search

1	Estudio de los factores pronósticos en la sarcoidosis: análisis de la persistencia de actividad mediante técnicas multivariantes Mañá Rey, Joan Mª 29 March 1990 (has links) a) INTRODUCCIÓN.La sarcoidosis es una enfermedad cuya evolución puede oscilar desde formas asintomáticas o con eritema nudoso con remisión espontánea, hasta cuadros progresivamente incapacitantes a pesar de un tratamiento con corticoides. La dificultad fundamental se plantea en poder identificar, en la presentación inicial de la enfermedad, aquellos datos que ayuden a establecer un pronóstico y, en consecuencia, a indicar un tratamiento. En la literatura médica sobre el pronóstico se han analizado sólo aspectos parciales de la enfermedad y no se ha utilizado una metodología estadística adecuada. En el Hospital de Bellvitge de Barcelona se dispone de una amplia casuística de pacientes con sarcoidosis y el establecimiento del pronóstico y la indicación de tratamiento son especialmente problemáticos. Por dicho motivo se inició un estudio con los siguientesb) OBJETIVOS1) Estudiar la casuística de sarcoidosis del hospital.2) Estudiar los factores pronósticos de persistencia de actividad de la enfermedad en el tiempo, mediante técnicas estadísticas univariantes y multivariantes.c) MATERIAL Y METODOS1) Casuística general: El estudio abarcó un periodo de 14 años y se efectuó en el Servicio de Medicina Interna del Hospital de Bellvitge, en colaboraci6n con otros servicios. A todos los pacientes incluidos en el estudio se les exigió confirmación anatomopatológica, excepto si se trataba de un síndrome de Lofgren.y fueron sometidos a un protocolo de estudio prospectivo que incluía datos referidos a formas clínicas, estadios radiológicos, marcadores de actividad, evolución y tratamiento.2) Estudio de los factores pronósticos: El pronóstico se definió como "la persistencia de actividad de la enfermedad en el transcurso del tiempo". La actividad se definió como "la presencia de datos clínicos y/o de alteraciones radiológicas y/o de alteraciones en los marcadores de actividad, persistentes o cambiantes en el tiempo. A partir del protocolo de estudio se definieron las variables que se estudiaron como factores pronósticos.3) Metodología estadística: se efectuaron dos tipos de análisis estadísticos:1º) Análisis de la persistencia de actividad a los 2 años del diagnóstico, mediante el test de chi-cuadrado y el test de regresión logística múltiple.2º) Análisis de la persistencia de actividad en el transcurso del tiempo, mediante Curvas actuariales (Kaplan-Meier) y el test de Mantel-Cox, y el test de Cox para Curvas actuariales ("Cox proportional hazards regression models"). Con esta metodología se realizaron dos análisis: uno con variables clínicas y otro que incluía además a los marcadores de actividad.d) RESULTADOS1) Casuística general: Se estudiaron 209 pacientes, con una edad media de 40 años y una relación mujer/varón de 3: 1. Destacó el elevado número de formas clínicas con eritema nudoso (62.7%) y la mayor frecuencia de estadio 1 en la radiografía de tórax (59.3%). Los niveles séricos de la enzima de conversión de la angiotensina fueron superiores a 2 DE en el 44% de los pacientes con eritema nudoso y en el 65% de los pacientes sin eritema nudoso. La captación endotorácica de galio-67 fue predominantemente en forma de estadio 1 (67.3%). Un 16% de los casos presentaron disminución de la capacidad vital y un 17% del test de difusión del monóxido de carbono. El 64% de los pacientes a los que se practicó lavado broncoalveolar presentó alveolitis de alta intensidad (linfocitosis superior al 28%).2) Estudio de los factores pronósticos: El estudio clínico de persistencia de actividad a los 2 años incluyó a 155 pacientes y las variables que se asociaron con independencia de las demás a un mal pronóstico fueron: ausencia de eritema nudoso, edad superior a 40 años, esplenomegalia y afectación del parénquima en la radiografía de tórax. El estudio clínico de persistencia de actividad en el transcurso del tiempo incluyó 193 casos y las variables que con independencia de las demás se asociaron a un mal pronóstico fueron: ausencia de eritema nudoso, afectación del parénquima en la radiografía de tórax, esplenomegalia, edad avanzada y ausencia de adenopatías en la radiografía de tórax. El estudio clínico y de los marcadores de actividad, de persistencia de actividad en el tiempo, incluyó 116 casos y las variables que con independencia de 1as demás se asociaron a un mal pronóstico fueron: ausencia de eritema nudoso, edad avanzada, elevación del nivel sérico de la enzima de conversión de la angiotensina, hipergammaglobulinemia, disminución de la capacidad vital y sexo varón.e) DISCUSIONLa sarcoidosis no es infrecuente en nuestro medio. La elevada frecuencia del síndrome de Löfgren destaca sobre el 17% de la media mundial, mientras que la distribución por estadios radiológicos es similar a la del resto de las series. Para el estudio de los factores pronósticos es necesario definir el concepto de pronóstico y el de actividad. La metodología estadística empleada muestra que para el estudio del pronóstico el test de Cox para curvas actuariales es superior al test de regresión logística múltiple. Las variables asociadas a un mal pronóstico tienen todas ellas un sentido clínico. Los marcadores de actividad son útiles en el seguimiento de la enfermedad, así como en el establecimiento del pronóstico.f) CONCLUSIONESLas conclusiones más importantes de la presente tesis son las siguientes:1) En nuestro medio, la sarcoidosis no es infrecuente y el síndrome de Lofgren es la forma clínica más común.2) El test de Cox para curvas actuariales es la metodología estadística multivariante más apropiada para estudiar el pronóstico de la enfermedad.3) En el estudio clínico, las variables asociadas a un mal pronóstico fueron: ausencia de eritema nudoso, afectación del parénquima en la radiografía de tórax, esplenomegalia, edad avanzada y ausencia de adenopatías en la radiografía de tórax.4) En el estudio conjunto clínico y de los marcadores de actividad las variables asociadas a un mal pronóstico fueron: ausencia de eritema nudoso, edad avanzada, elevación del nivel sérico de la ECA. hipergammaglobulinemia, disminución de la capacidad vital y sexo varón. En consecuencia, los marcadores de actividad son útiles para establecer el pronóstico de la sarcoidosis.5) El problema del pronóstico en la sarcoidosis se plantea fundamentalmente en las formas sin eritema nudoso. En consecuencia, un estudio del pronóstico realizado en una serie amplia de pacientes sin eritema nudoso podía proporcionar información más especifica para esta forma clínica de la enfermedad. / The aim of this study was to define the prognostic factors in sarcoidosis using univariate and multivariate statistical methods (Cox proportional hazards regression model).We studied prospectively 209 patients suffering from sarcoidosis, during a 14 year period (1974-1987) in Bellvitge Hospital (Barcelona). The prognosis was defined as "persistence of activity of the disease by means of clinical, radiological and other markers".Main results:1) Our population with sarcoidosis had a high incidence of erythema nooosum (62.7%) and a predominance of stage 1 on x-ray. The activity markers (serum angiotensin converting enzyme, pulmonary gallium scan, pulmonary function test, and broncoalveolar lavage) showed to be a useful follow-up parameter.2) Prognostic factors: A Cox proportional-hazards regression model picked the following variables: absence of erythema nodosum (Risk Ratio=2'78), greater than 40 years (Risk Ratio=1'67), elevation of serum angiotensin converting enzyme (Risk Ratio=1'45), immunoglobulin level elevation (Risk Ratio=2'47), vital capacity decrease (Risk Ratio=2'17), and male sex (Risk Ratio=1'8) as independent predictors of bad prognosis. We suggest that accurate definition of prognostic factors in sarcoidosis may provide a better treatment approach for the disease. Anàlisi multivariant Diagnòstic Sarcoidosi Ciències de la Salut 61
2	Construction of Bivariate Distributions and Statistical Dependence Operations Casanova Gurrera, María de los Desamparados 29 April 2005 (has links) Dependence between random variables is studied at various levels in the first part, while the last two chapters are devoted to the construction of bivariate distributions via principal components. Chapter 1 of Preliminaries is devoted to general dependence concepts (Fréchet classes, copulas, and parametric families of distributions). In Chapter 2, we generalize the union and intersection operations of two distance matrices to symmetric nonnegative definite matrices. These operations are shown to be useful in the geometric interpretation of Related Metric Scaling (RMS ), and possibly in other approaches of Multivariate Analysis. They show relevant properties that are studied in this chapter. The behaviour of the operations is, in some way, analogous to that presented by the intersection and union between vector spaces; in particular, we prove that the intersection of orthogonal matrices is the null matrix, while the union is the direct sum of the matrices. Matrices that share their eigenvectors form an equivalence class, and a partial order relation is defined. This class is closed for the union and intersection operations. A continuous extension of these operations is presented in Chapter 3. Infinite matrices are studied in the context of bounded integral operators and numerical kernels. We put the basis for extending RMS to continuous random variables and, hence, infinite matrices. The starting point is Mercer's Theorem, which ensures the existence of an orthogonal expansion of the covariance kernel K (s, t) = min {F (s) , F (t)} - F (s) F (t), where F is the cumulative distribution function of each marginal variable. The sets of eigenvalues and eigenfunctions of K, whose existence is ensured by the cited theorem, allow us to define a product between symmetric and positive (semi)definite kernels, and, further, to define the intersection and the union between them. Results obtained in the discrete instance are extended in this chapter to continuous variables, with examples. Such covariance kernels (symmetric and positive definite) are associated with symmetric and positive quadrant dependent (PQD) bivariate distributions. Covariance between functions of bounded variation defined on the range of some random variables, joined by distributions of this type, can be computed by means of their cumulative distribution functions. In Chapter 4, further consequences are obtained, especially some relevant relations between the covariance and the Fréchet bounds, with a number of results that can be useful in the characterization of independence as well as in testing goodness-of-fit. The intersection of two kernels (defined in Chapter 3) is a particular instance of the covariance between functions. Covariance is a quasiinner product defined through the joint distribution of the variables involved. A measure of affinity between functions with respect to H is defined, and also studied. In Chapter 5, from the concept of affinity between functions via an extension of the covariance, we define the dimension of a distribution, we relate it to the diagonal expansion and find the dimension for some parametric families. Diagonal expansions of bivariate distributions (Lancaster) allows us to construct bivariate distributions. It has proved to be adequate for constructing Markov processes, and has also been applied to engineering problems among other uses. This method has been generalized using the principal dimensions of each marginal variable that are, by construction, canonical variables. We introduce in Chapter 6 the theoretical foundations of this method. In Chapter 7 we study the bivariate, symmetric families obtained when the marginals are Uniform on (0, 1), Exponential with mean 1, standard Logistic, and Pareto (3,1). Conditions for the bivariate density, first canonical correlation and maximum correlation of each family of densities are given in some cases. The corresponding copulas are obtained. / Al Capítol 1 de Preliminars es revisen conceptes de dependència generals (classes de Fréchet, còpules, i famílies paramètriques de distribucions). Al Capítol 2, generalitzem les operacions unió i intersecció de dues matrius de distàncies a matrius simètriques semidefinides positives qualssevol. Aquestes operacions s'han mostrat d'utilitat en la interpretació geomètrica del Related Metric Scaling (RMS), i possiblement en altres tècniques d'Anàlisi Multivariant. S'estudien llur propietats que són similars, en alguns aspectes, a les de la unió i intersecció de subespais vectorials. Al Capítol 3 es presenta una extensió al continuu d'aquestes operacions, mitjançant matrius infinites en el context dels operadors integrals acotats i nuclis numèrics. S'estableix la base per a extendre el RMS a variables contínues i, per tant, a matrius infinites. Es parteix del Teorema de Mercer el qual assegura l'existència d'una expansió ortogonal del nucli de la covariança K (s, t) = min {F (s), F (t)} - F (s) F (t), on F és la funció de distribució de cada variable marginal. Els conjunts de valors i funcions pròpies d'aquest nucli ens permeten definir un producte entre nuclis i la intersecció i unió entre nuclis simètrics semidefinits positius. Tals nuclis de covariança s'associen amb distribucions bivariants també simètriques i amb dependència quadrant positiva (PQD). El producte de dos nuclis és un cas particular de covariança entre funcions, que es pot obtenir a partir de les distribucions conjunta i marginals, com s'estudia al Capítol 4 per a funcions de variació afitada, fixada la distribució bivariant H. S'obtenen interessants relacions amb les cotes de Fréchet. Aquesta covariança entre funcions és un producte quasiescalar a l'espai de funcions de variació afitada i permet definir una mesura d'afinitat. Al Capítol 5 aquesta H-afinitat s'utilitza per definir la dimensió d'una distribució. Les components principals d'una variable (Capítol 6) s'utilitzen com a variables canòniques a l'expansió diagonal de Lancaster (Capítol 7 i últim) per a construïr distribucions bivariants amb marginals Uniformes al (0,1), Exponencial de mitjana 1, Logística estàndard, i Pareto (3,1). S'obtenen condicions per la densitat bivariant, correlacions canòniques i correlació màxima per cada família. S'obtenen les còpules corresponents. Anàlisi multivariant Teorema de Mercer Matrius Ciències Experimentals i Matemàtiques 311
3	Contribuciones a la representación de datos multidimensionales mediante árboles aditivos Arcas Pons, Antoni 01 January 1986 (has links) En esta tesis se analiza el problema de la representación asociada a un conjunto sobre el que tenemos definida una distancia verificando el axioma del cuarto punto, realizando un estudio formal de los principales aspectos relacionados con este tipo de representaciones tales como una caracterización de las mismas tratando a través de ella las relaciones entre distancias ultramétricas y aditivas. En concreto, se estudia una estructura de variedad diferenciable sobre el conjunto de las distancias aditivas con configuración inferencia en árboles y confección de algoritmos de construcción de árboles aditivos. Anàlisi de dades Anàlisi multivariant Estadística Ciències Experimentals i Matemàtiques 311
4	Enfoque basado en distancias de algunos métodos estadísticos multivariantes Fortiana Gregori, Josep 03 July 1992 (has links) 1) IntroducciónUna de las aplicaciones estadísticas de la Geometría Métrica es la representación de conjuntos, consistente en determinar puntos en un espacio de métrica conocida (frecuentemente euclídea) cuyas distancias reproduzcan exacta o aproximadamente las observadas.Los Métodos de Regresión y Discriminación basados en Distancias, propuestos por Cuadras, proporcionan predicciones estadísticas aplicando propiedades geométricas de una representación euclídea. Tienen la ventaja de permitir el tratamiento de Variables continuas, cualitativas de tipo nominal y ordinal, binarias y, en general, cualquier mixtura de estas variables.Esta memoria es una contribución al estudio de estos métodos de predicción basados en distancias. En lo sucesivo emplearemos la abreviatura "DB" para referirnos él estos métodos.2) Fundamento teórico de la predicción DBSupongamos que se ha medido una variable respuesta "Y" sobre un conjunto "U" de "n" objetos, definidos por unas coordenadas "Z", y se desea predecir el valor Y(n+l) de esta variable para un nuevo objeto "omega" definido por las coordenadas "Epsilon"(n+1). Aplicando una función distancia adecuada se obtiene una matriz "delta" de distancias entre los objetos "U", y de ella las coordenadas "X" de los "U" en cierto espacio euclídeo RP. Existe una expresión para las coordenadas euclídeas X(n+l) de "omega".Si "Y" es continua (regresión DB), la predicción Y(n+l) se obtiene calculando regresión lineal sobre las variables "X" y aplicando a X(n+1) la ecuación de regresión obtenida. Si "Y" es discreta, con estados que equivalen a sub-poblaciones de "U" (discriminación DB), se asigna "omega" a aquella subpoblación para la cual es mínima la distancia euclídea entre su centro de gravedad y X(n+l). Conviene observar que en la práctica no se emplean en general estas construcciones teóricas, sino cálculos equivalentes.3) La distancia Valor AbsolutoLa elección de la función distancia es crítica para estos métodos. Para cada problema concreto se puede elegir una medida de distancia que refleje el conocimiento del modelo.Existen, sin embargo, algunas medidas de distancia "standard", adecuadas a gran número de problemas. Un caso notable es el de la distancia Valor Absoluto, cuya fórmula se aborda en esta tesis. Se ha observado que da lugar a predicciones excelentes, comparables a las de una regresión no lineal. Uno de los objetivos de este trabajo ha sido precisamente dar una justificación teórica a este buen comportamiento.En el teorema (2.2.1) se muestra que para todo conjunto "U" de puntos en R(n) existe una configuración de puntos en un espacio euclídeo R(P) que reproduce la matriz ele distancias valor absoluto entre los "U".Seguidamente se realiza el estudio teórico de la estructura de coordenadas principales asociada a esta distancia para "n" puntos sobre la recta real (al ser no bilineal la función distancia, en general "n-1" coordenadas son no triviales).El caso de puntos equidistantes se resuelve analíticamente, partiendo de una configuración euclídea inicial X(o) (convencional, con el único requerimiento de reproducir las distancias valor absoluto entre los puntos dados), y a partir de ella se obtienen las componentes principales. Las coordenadas principales resultan aplicando a la matriz X(o) la rotación resultante. Este método indirecto es más accesible que el usual para la obtención de Coordenadas Principales.En el teorema (2.4.1) se expresan los elementos de la columna "j" de la matriz de coordenadas principales como los valores de una función polinómica de grado "j" en unos puntos "z(i)" fijos.Este teorema se deduce del estudio de una familia paramétrica de matrices cuyo problema de valores y vectores propios se resuelve mediante una ecuación en diferencias. La fórmula de recurrencia se identifica como la de los polinomios de Chehychev. Empleando propiedades de estos polinomios se llega a expresiones explícitas.Estas matrices tienen notables propiedades combinatorias. En particular el teorema (3.3.1) muestra que todos sus vectores propios se obtienen aplicando a1 primero de ellos potencias de una matriz de permutación con signo.Si se dispone de un modelo paramétrico y de una distancia entre individuos estadísticos aplicable a dicho modelo, se puede emplear la versión para variables aleatorias de las funciones discriminantes. La distancia entre individuos más adecuada es la deducida de la Geometría Riemanniana de la variedad de parámetros, que tiene por tensor métrico la "Métrica de Rao".Se han calculado las funciones discriminantes DB para variables aleatorias que siguen algunas distribuciones conocidas. En particular, de la proposición (5.4.2), para variables multinomiales las funciones discriminantes DB coinciden con el tradicional estadístico Ji cuadrado, y de la (5.4.5), para variables normales con matriz de covarianzas común conocida, las funciones discriminantes DB coinciden con las clásicas (lineales) de Fisher.4)Representación de PoblacionesSe propone una distancia entre poblaciones, obtenida como diferencia de Jensen a partir de promedios sobre las distancias entre los individuos. El teorema (5.5.1) permite interpretarla como distancia euclídea entre los centros de gravedad de los puntos que representan los individuos de cada población.Se demuestra que generaliza la de Mahalanobis, pues coincide con ella en poblaciones normales, si se emplea como distancia entre individuos la deducida de la Geometría Diferencial.Calculando esta distancia para todos los pares de sub-poblaciones se obtiene una matriz, a la que se aplica Multidimensional Scaling, dando lugar a un representación euclídea que generaliza el Análisis Canónico de Poblaciones clásico, es decir, para poblaciones normales se obtienen los mismos resultados que con dicho análisis. Este método no proporciona regiones de confianza para los valores medios de las poblaciones. Se sugiere el empleo de "bootstrap" para dicho cálculo.5)Aspectos computacionalesSe discuten algunos puntos relevantes de la implementación realizada de los algoritmos DB en los programas MULTICUA ®, así como de la estimación "bootstrap" de la distribución de probabilidad de las distancias entre poblaciones, con especial énfasis en las dificultades debidas a las grandes dimensiones de los objetos tratados.6)Puntos arbitrarios sobre una rectaEn este caso se llega a una descripción cualitativa de las coordenadas principales, que permite todavía describir la primera coordenada como una dimensión lineal, la segunda como una dimensión cuadrática, la tercera como una dimensión cúbica, etc.La proposición (4.1.1) reduce el problema al estudio de los cambios de signo de las componentes de los vectores propios de una matriz "C". En (4.1.2) se muestra que "C" es oscilatoria, propiedad equivalente a la de tener todos los menores no negativos. Un teorema de Gantmacher sobre matrices oscilatorias da la descripción de los signos.7)Coordenadas principales de una variable aleatoria uniformeLa técnica empleada para obtener las coordenadas principales de un conjunto unidimensional discreto de puntos da lugar a una generalización aplicable a una distribución continua uniforme en el intervalo (0,1). La "configuración euclídea" de partida es un proceso estocástico con parámetro continuo. El cálculo de componentes principales se sustituye por el cálculo de las funciones propias de la función de covarianza del proceso, y de ellas una sucesión (numerable) de variables aleatorias centradas C(j).En (4.2.1) se muestra que estas variables son incorrelacionadas, igualmente distribuidas, y con una sucesión de varianzas sumable, de suma igual a la "variabilidad total" del proceso (traza del núcleo), y por ello el apropiado llamarlas "coordenadas principales de la variable aleatoria uniforme".Aplicando a este modelo de coordenadas principales el esquema de predicción DB se propone una medida de bondad de ajuste de una muestra a una distribución dada.8)Análisis discriminante DBLas funciones discriminantes DB descritas más arriba pueden obtenerse directamente de los elementos de la matriz de distancias, sin precisar ninguna diagonalización, según resulta de (5.2.1) y (5.2.2). En consecuencia, el cálculo es rápido y efectivo. / Distance Based (DB) Regression and Discrimination methods, proposed by Cuadras, give statistical predictions by exploiting geometrical properties of a Euclidean representation obtained from distances between observations. They are adequate to deal with mixed variables.Choice of a suitable distance function is a critical step. Some "standard" functions, however, fit a wide range of problems, and particularly the Absolute Value distance. This is explained showing that for "n" equidistant points on the real line, elements in the "j"-th row of the principal coordinate matrix are values of a "j"-th degree polynomial function. For arbitrary one-dimensional sets of points a qualitatively analogous result holds.Using results from the theory of random processes, a sequence of random variables is obtained from a continuous uniform distribution on the (0, 1) interval. Their properties show that they deserve the name of "Principal Coordinates". The DB prediction scheme in this case provides a goodness-of-fit measuring technique.DB discriminant functions are evaluated from distances between observations. They have a simple geometrical interpretation in the Euclidean representation of data. For parametric models, distances can be derived from the Differential Geometry of the parametric manifold. Several DB discriminant functions are computed using this approach. In particular, for multinomial variables they coincide with the classic Pearson's Chi Square statistic, and for Normal variables, Fisher's linear discriminant function is obtained.A distance between populations generalizing Mahalanobis' is obtained as a Jensen difference from distances between observations. It can be interpreted in terms of the Euclidean representation. Using Multidimensional Scaling, it originates a Euclidean representation of populations which generalizes the classical Canonical Analysis.Several issues concerning implementation of DB algorithms are discussed, specially difficulties related to the huge dimension of objects involved. Representacions euclidees Mètodes de predicció Geometria Mètica Anàlisi multivariant Ciències Experimentals i Matemàtiques 51
5	Contribuciones al estudio del problema de la clasificación mediante grafos piramidales Capdevila i Marquès, Carles 30 September 1993 (has links) En esta memoria se ha desarrollado una metodología para abordar problemas relativos a la clasificación y de un conjunto de objetos o individuos de una determinada población, mediante unas estructuras llamadas "Pirámides", introducidas por E. Diday en 1984, y que pretenden ser una generalización del concepto de Jerarquía, en el sentido de permitir la existencia no de grupos disjuntos o encajados, sino también de grupos solapados, y por tanto permitir clasificaciones en las que los grupos en que queda dividida la población a un determinado nivel, no tengan que ser forzosamente particiones de la misma, como pasa con las clasificaciones inducidas por las Jerarquías, sino que puedan ser recubrimientos. Este tipo de clasificaciones permite pues que un determinado individuo pueda pertenecer a dos grupos de una misma clasificación y por tanto, en la realidad, pueda ser caracterizado por las propiedades de los distintos grupos a los que pertenezca y no por las de un único grupo como en el caso jerárquico, con lo cual este nuevo modelo de clasificación y representación de datos se adaptará a la realidad que aquel. En primer lugar se ha situado este nuevo modelo de representación en el marco del Análisis Multivariante y se han presentado algunos conceptos y resultados ya conocidos, pero imprescindibles para el desarrollo del tema: Caracterización de las matrices asociadas a las disimilaridades piramidales, relación con los preordenes compatibles, etc. Se recuerda que toda disimilaridad ultramétrica es también piramidal y que, en consecuencia, toda Jerarquía Total Indexada es una Pirámide Indexada, con lo cual podemos considerar a los modelos piramidales como una generalización de los modelos jerárquicos. Se ha desarrollado también una nueva formalización de las bases sobre las que se amparan los modelos de representación y clasificación. En este sentido se ha precisado la axiomática y se han dado nuevos teoremas de Existencia y Unicidad de la pirámide inducida por una disimilaridad piramidal y recíprocamente, de la disimilaridad piramidal inducida por una pirámide.Una vez establecidos los resultados teóricos mencionados, se ha profundizado en otros aspectos teóricos conducentes a hacer que los métodos piramidales puedan llegar a ser útiles en la realización de trabajos prácticos como lo han sido los modelos jerárquicos clásicos.En este sentido se ha diseñado un algoritmo de clasificación piramidal, inspirado en el descrito por el propio Diday, convenientemente modificado, con el fin de obtener una pirámide indexada lo más sencilla posible desde el punto de de la representación visual.Se han caracterizado los grupos sobrantes en una pirámide indexada y se ha demostrado que son los únicos que pueden ser eliminados de una pirámide sin que ello suponga pérdida de información sobre la clasificación. Se ha definido un índice de agregación adecuado a los modelos de representación piramidal y se ha demostrado que el algoritmo de clasificación piramidal descrito, utilizando un tal índice de agregación, produce siempre una pirámide indexada en sentido estricto, sin inversiones, sin cruzamientos y sin grupos sobrantes.Finalmente se ha efectuado una programación informática del algoritmo en Turbo Prolog. El programa, llamado PIR. PRO, a partir de una matriz de disimilaridad dada sobre los individuos de la población, efectúa una clasificación piramidal de la misma por los métodos del Mínimo, del Máximo y del UPGMA, obteniéndose como resultado una de las pirámides indexadas correspondientes, la disimilaridad piramidal asociada, el grafo piramidal y como coeficientes de adecuación entre la disimilaridad inicial y la piramidal obtenida, el coeficiente de correlación cofenética (rho) y el coeficiente gamma de Goodman-Kurskal.Debido a las restricciones impuestas en el algoritmo, se establece que el algoritmo piramidal del mínimo produce siempre la jerarquía del mínimo, que como es sabido, es única.Un sencillo experimento de simulación nos confirma la mejora que suponen las representaciones piramidales frente a las ultramétricas, en el sentido de ser próxima la realidad.En problemas reales de clasificación, una vez obtenida la pirámide es necesario evaluar el nivel de adecuación de la estructura piramidal obtenida, a la estructura inicial de los datos. Para ello disponemos de numerosos coeficientes de adecuación, en nuestro caso hemos considerado el coeficiente de correlación cofenética y el de Goodman-Kurskal. A pesar de disponer de estos parámetros, en un caso concreto, es difícil valorar hasta qué punto sus valores realmente significativos. Así pues, seria conveniente encontrar algún criterio que nos permitiese evaluar el nivel de significación de dichos parámetros. En este sentido hemos intentado una validación estadística de los métodos piramidales del mínimo y del máximo así como la obtención de algún criterio evaluar la potencia-eficiencia de los mismos.Debido al desconocimiento de las distribuciones de los estadísticos utilizados (gamma y rho), se han tratado cuestiones inferenciales un punto de vista empírico. Mediante algunas pruebas de simulación por métodos de Monte Carlo se ha tabulado, a partir de la distribución muestral del estadístico gamma, un test de significación de la bondad de ajuste de una representación piramidal por los métodos del mínimo y del máximo. Asimismo se ha establecido que, en general, el método piramidal del máximo recupera mejor una posible estructura piramidal subyacente en la población a clasificar que el método del mínimo, a menos que pueda preverse que la estructura de la población inicial se asemeje a una jerarquía encadenada. / In this memory it is developed a methodology to tackle problems about the classifications and representations population's members through structures called "Pyramids". Pyramidal trees, introduced by E. Diday, are a logical generalization of ultrametric trees. They are less restrictive structures where recovering replaces the concept of partition, obtaining a representation which bears information is closer to the dissimilarities. A new formalization of mathematics bases of the pyramidal models is developed. In this sense, the axiomatic has fixed and new theorems of existence and uniqueness of the pyramid induced from pyramidal dissimilarity, they are considered, and mutually. An algorithm of pyramidal classification is designed in order to obtain an easiest pyramid. The spare groups in an indexed pyramid are characterized. A suitable criterion to the pyramidal models is definited to calculate the distance between groups. From mentioned algorithm and using this criterion indexed pyramid in strict sense, without reversals, crossings and spare groups. Moreover, a computer programming of the algorithm is developed in Turbo Prolog.In applied problems is necessary to measure the fitting between the pyramidal tree from some algorithm and the initial structure. Using some simulation techniques by means of Monte Carlo methods, sample distribution of is obtained, to tabulate a goodness-of-fit test of the pyramidal representation using the minimum method and the maximum method. Finally, we have studied the efficiency of the maximum method and the minimum method through other simulation tests. Anàlisi multivariant Mètodes gràfics Classificació - Estadística Ciències Experimentals i Matemàtiques 311
6	Nous desenvolupaments, aplicacions bioanalítiques i validació dels mètodes de resolució multivariant Jaumot Soler, Joaquim 20 June 2006 (has links) Aquest treball s'integra en una de les línies d'investigació del grup de recerca "Quimiometria" del Departament de Química Analítica de la Universitat de Barcelona. Aquesta línia d'investigació es centra en el desenvolupament de mètodes quimiomètrics d'anàlisi multivariant de dades, i en la seva aplicació a l'estudi analític dels canvis de conformació i/o de les interaccions entre biomolècules.Actualment és possible enregistrar l'espectre sencer d'una mostra en poc temps. Aquest augment del nombre i de la complexitat de les dades adquirides ha portat a l'aparició de mètodes que tenen com a finalitat la obtenció d'informació d'interés físico-químic a partir d'aquests conjunt de dades. Amb aquesta finalitat es poden trobar dues aproximacions: a) els mètodes de modelatge rígid que exigeixen la postulació d'un model químic o cinètic al qual ajustar les dades experimentals, i b) els mètodes de modelatge flexible que no necessiten la postulació d'un model.El treball realitzat en aquests tesi doctoral es pot dividir en tres blocs.En primer lloc, s'ha desenvolupat una interfície gràfica en l'entorn de programació MATLAB pel mètode de resolució multivariant de corbes mitjançant mínims quadrats alternats (MCR-ALS). Aquesta interfície millora notablement la interacció entre l'usuari i el programa, i potencía la seva utilització generalitzada per part d'usuaris no acostumats a treballar amb eines pròpies de la Quimiometria.En segon lloc, s'ha dut a terme la validació de diversos mètodes d'anàlisi multivariant, és a dir, s'ha estudiat la fiabilitat de les solucions obtingudes per aquest tipus de mètodes quimiomètrics. Així, pel mètode MCR-ALS, s'ha analitzat la influència i la propagació de l'error experimental i les possibles repercusions sobre les ambigüetats matemàtiques existents en les solucions obtingudes. Aquest estudi s'ha realitzat tant en el cas de l'anàlisi individual de matrius de dades obtingudes en un únic experiment, com en el cas de l'anàlisi simultani de matrius de dades obtingudes en diversos experiments. En el cas dels mètodes de modelatge rígid s'ha estudiat l'ambigüetat existent al ajustar mecanismes cinètics complexos. En aquest cas s'ha observat l'aparició de mínims locals múltiples amb el mateix valor d'ajust en la superfície de desposta associada.Finalment, s'han aplicat els mètodes quimiomètrics de modelatge flexible i de modelatge rígid a l'estudi dels equilibris en solució dels àcids nucleics. Aquestes són biomolècules que tenen una organització jeràrquica començant en la seqüència de nucleòtids a les cadenes fins a estructures complexes d'ordre superior com els tríplexs o quadruplexs. Els canvis conformacionals o les interaccions amb d'altres biomolècules s'han estudiat tradicionalment mitjançant experiments seguits amb tècniques espectroscòpies. En aquest treball es seguiran aquests processos mitjançant lectures a moltes longituts d'ona (aproximació multivariant) i s'aplicaran mètodes quimiomètrics adients de tractaments de dades multivariants. Els procesos estudiants en aquesta Tesi són bàsicament els canvis conformacionals provocats en variar condicions del medi, com el pH, la temperatura, la concentració d'altres ions... S'han emprat tècniques espectroscòpiques com l'absorció molecular a l'UV-visible, la fluorescència, el dicroisme circular i la ressonància magnètica nuclear. Una altra aplicació, ha estat l'anàlisi de micromatrius d'ADN. L'aparició d'aquesta la tecnologia ha permès obtenir informació sobre els nivells de l'expressió gènica per un gran nombre de gens en un únic experiment. La generació de grans quantitats de dades requereix la utilització d'eines mitjançant les quals es pugui extreure la informació biològica. En aquest treball s'ha aplicat el mètode MCR-ALS a l'anàlisis de diversos conjunts de dades per tal de poder determinar la relació entre les mostres que presenten diferents tipus de càncer i els gens estudiats. / OF THE PHD THESIS: This PhD Thesis has been developed in the framework of the Chemometrics group at the Universitat de Barcelona. The work deals with the development and validation of Multivariate Curve Resolution (MCR) methods (both hard- and soft-modelling), and with their application to bioanalytical problems. The work has been organized into three blocks:First, a graphical interface has been developed for the program running the MCR-ALS (Multivariate Curve resolution Alternating Least Squares) method in the MATLAB® environment. This interface improves the interaction between the user and the program and facilitates the use of multivariate curve resolution to little experineced potential users.Secondly, validation of multivariate resolution methods of data analysis has been carried out. For the MCR-ALS method, effects of rotational ambiguities and of propagation of experimental noise have been studied. These studies have been performed in the analysis of a single experiment and in the case of analyzing multiple experiments simultaneously. In the case of hard-modelling kinetic data fitting methods, ambiguities in the analysis of kinetic experiments have been studied and methods to overcome this ambiguity have been proposed.Third, multivariate resolution methods have been applied to the study of conformational equilibria of nucleic acids. These are biomolecules that have a hierarchic organization from the nucleotide sequence to higher order structures such as triplex or quadruplex. Traditionally, conformational changes or interactions of nucleic acids with other biomolecules have been spectroscopically monitored at just one wavelength. In this work, these processes have been followed at multiple wavelengths and suitable multivariate resolution methods for the data treatment have been applied. Processes studied during this Thesis have been DNA conformational changes induced by pH, temperature or salinity. Spectroscopic techniques such as molecular absorption in the UV-visible, circular dichroism or nuclear magnetic resonance have been used for this purpose. Finally, data obtained using DNA microarrays have been analyzed. This technique allows highthroughput analysis of relative gene expressions of thousands of genes of an organism that generates large amounts of data. This has caused a need for statistical methods that can extract useful information for further research. In this PhD Thesis, the MCR-ALS method has been proposed for the analysis of this kind of data with very promising results. MATLAB Mètodes de modelatge Anàlisi multivariant de dades Quimiometria MCR-ALS Ciències Experimentals i Matemàtiques 543
7	Utilización de métricas riemannianas en análisis de datos multidimensionales y su aplicación a la biología Oller i Sala, Josep Maria 25 November 1982 (has links) Esta Memoria es una aportación al Análisis Multivariante y su aplicación a la Biología. Los numerosos índices de disimilaridad y distancias que se utilizan en Estadística y son aplicados en Genética, Antropología, Ecología, etc., me han motivado a intentar estudiar una distancia entre poblaciones estadísticas paramétricas, de aplicación general, y que posea buenas propiedades matemáticas.En la primera parte (cap. 1 al 6), se desarrolla esta distancia estadística, definible para una clase muy general de funciones de densidad paramétricas, a través de la matriz de información de Fisher, hallando algunas de sus propiedades básicas y calculándola para ciertas distribuciones de probabilidad concretas. En la segunda parte (cap. 7 al 9), se aplican algunos de los resultados obtenidos, proponiendo una metodología estadística para el tratamiento de tablas de contingencia multidimensionales, asociadas a experiencias etológicas, ilustrándolo con el estudio, de la conducta agonística del lugano. También se propone un algoritmo utilizable para el diagnóstico de enfermedades, a partir de los resulta¬dos de unos análisis, aplicándolo al diagnóstico de ciertas enfermedades hematológicas a través de la interpretación de mielogramas.Finalmente se considera una alternativa al test "t" de Student para muestras independientes y se ilustra con el estudio de la relación entre la alcohol deshidrogenasa y el tamaño en "Drosophila melanogaster". Matriu d'informació de Fisher Poblacions estadístiques paramètriques Anàlisi multivariant Etologia Ciències Experimentals i Matemàtiques 311
8	Aplicació de diferents metodologies d'anàlisi i representació de dades per a l'avaluació de la qualitat ambiental d'una conca hidrogràfica Terrado Casanovas, Marta 22 January 2009 (has links) En aquesta tesi doctoral es proposa la integració de metodologies de tipus quimiomètric i determinista per a l'avaluació la qualitat ambiental d'una conca hidrogràfica. Amb aquesta integració es busca ampliar el coneixement sobre la distribució espacial i temporal de les principals fonts de contaminació que existeixen dins de l'àmbit d'una determinada conca. Les fonts de contaminació poden ser identificades mitjançant mètodes quimiomètrics i de l'estadística multivariant. En concret, en aquesta tesi s'ha posat especial èmfasi en l'aplicació de dos mètodes diferents: l'Anàlisi de Components Principals (PCA) i la Resolució Multivariant de Corbes per Mínims Quadrats Alternats (MCR-ALS). Mentre que PCA és un mètode àmpliament utilitzat en l'anàlisi exploratòria de dades, l'aplicació d' MCR-ALS per a l'estudi de taules de dades ambientals és més incipient. En aquest treball es realitza la validació d'MCR-ALS per a l'estudi de la contaminació en aigües superficials i, a més, s'estén la seva utilització al cas d'altres compartiments ambientals com són les aigües subterrànies, els sòls i els sediments. Un cop identificades mitjançant mètodes quimiomètrics, les fonts de contaminació poden ser modelitzades amb l'aplicació de models deterministes, que facilitaran la presa de decisions respecte a les possibles mesures de gestió per al control i millora de la qualitat ambiental de l'àrea d'estudi. No obstant, això requerirà l'adaptació dels models deterministes a l'estudi de factors multivariables, com són les fonts de contaminació, enlloc d'aplicar-los a l'estudi de variables individuals, com s'ha fet fins al moment.Aquesta tesi recull l'estudi de diferents conques i problemàtiques ambientals: a) contaminació per metalls pesants, compostos orgànics i productes farmacèutics en diferents compartiments ambientals de la conca del riu Ebre; b) contaminació per compostos orgànics en aigües superficials del delta de l'Ebre; i c) contaminació per compostos orgànics en aigües superficials de la conca del riu Llobregat.Addicionalment, es proposa la utilització d'un índex fisicoquímic per a l'avaluació de la qualitat de les aigües superficials que pugui ser aplicat sobre dades generades per xarxes automàtiques de presa de mostra. Les xarxes automàtiques acostumen a mesurar simultàniament diverses variables a diferents localitzacions amb una elevada resolució temporal. L'índex del Canadian Council of Ministers of the Environment (CCME WQI) ha estat seleccionat per a la categorització de la qualitat de les aigües a partir de dades de les estacions automàtiques, gràcies a la seva flexibilitat en la selecció de les variables utilitzades en el seu càlcul, així com per la llibertat en la fixació dels objectius màxims i mínims segons l'ús final específic assignat a la massa d'aigua. D'altra banda, el procediment Combined Monitoring-based and modelling-based Priority Setting scheme (COMMPS) de la Comunitat Europea, ha estat adaptat per a l'establiment d'una llista de substàncies prioritàries de risc de contaminació a l'àmbit de Catalunya. En base a aquest índex també s'ha elaborat un índex prioritari de contaminació a les localitzacions, el qual permet obtenir una indicació de les localitzacions considerades de risc més elevat pel que fa a la contaminació per substàncies químiques orgàniques, tenint en compte els seus efectes toxicològics sobre humans i sobre l'ecosistema aquàtic. / The integration of chemometric and deterministic methods is proposed in this work to evaluate the environmental quality of river basins. This integration allows improving current knowledge about the spatial and temporal distribution of the main contamination sources existing in the river basin under study. The application of Principal Component Analysis (PCA) and Multivariate Curve Resolution using Alternating Least Squares (MCR-ALS) methods is presented. While PCA is a widely-used method for exploratory data analysis purposes, MCR-ALS application to the study of environmental data tables is more incipient. In this work, validation of MCR-ALS for the study of contamination in surface water is performed, and its usage is also extended to other environmental compartments such as groundwater, soil and sediment.Once identified, contamination sources can be modelled by the application of deterministic models. This makes the procedure of decision-making easier in the sense of possible management measures to be applied for improvement of the environmental quality in the study area. However, the adaptation of deterministic models to the study of multivariate factors will be needed in this case.Additionally, a physico-chemical index has been used for the evaluation of surface water quality using data obtained from automated sampling networks (which measure different variables simultaneously at high temporal resolution). The index of the Canadian Council of Ministers of the Environment (CCME) has been selected as the most suitable one for categorization of water quality in this case. The procedure of Combined Monitoring-based and Modelling-based Priority Setting scheme (COMMPS) from the European Community, has been adapted to establish a list of priority substances of contamination risk in Catalunya. Based on it, a priority contamination index at locations has been obtained in order to identify those locations with a higher risk by contamination for organic substances, according to toxicological effects over humans and aquatic ecosystems. Ebre (Riu) Llobregat (Riu) Modelització determinista Qualitat ambiental Conca hidrogràfica Anàlisi multivariant Ciències Experimentals i Matemàtiques 55
9	Aspectes metodològics i aplicacions de la modelització del temps de supervivència multivariant mitjançant models mixtes Renart i Vicens, Gemma 15 June 2009 (has links) Els estudis de supervivència s'interessen pel temps que passa des de l'inici de l'estudi (diagnòstic de la malaltia, inici del tractament,...) fins que es produeix l'esdeveniment d'interès (mort, curació, millora,...). No obstant això, moltes vegades aquest esdeveniment s'observa més d'una vegada en un mateix individu durant el període de seguiment (dades de supervivència multivariant). En aquest cas, és necessari utilitzar una metodologia diferent a la utilitzada en l'anàlisi de supervivència estàndard. El principal problema que l'estudi d'aquest tipus de dades comporta és que les observacions poden no ser independents. Fins ara, aquest problema s'ha solucionat de dues maneres diferents en funció de la variable dependent. Si aquesta variable segueix una distribució de la família exponencial s'utilitzen els models lineals generalitzats mixtes (GLMM); i si aquesta variable és el temps, variable amb una distribució de probabilitat no pertanyent a aquesta família, s'utilitza l'anàlisi de supervivència multivariant. El que es pretén en aquesta tesis és unificar aquests dos enfocs, és a dir, utilitzar una variable dependent que sigui el temps amb agrupacions d'individus o d'observacions, a partir d'un GLMM, amb la finalitat d'introduir nous mètodes pel tractament d'aquest tipus de dades. / Survival research is interested in the time that passes from the beginning of the study until the event of interest occurs. However, it is very common to find individuals who experience this event more than once during the period of study. In this case, a different methodology needs to be used to that of the standard univariate survival analysis.In this case, the duration between recurrences could be correlated due to the presence of unobserved individual factors. This type of event is normally dealt with by introducing individual random effects in the model, resulting in a multivariate model. The random effects represent the individual "frailty" and the variance of these effects measures the unobserved heterogeneity between individuals. Until recently, the most common way of dealing with this type of situation in survival analysis was by using marginal models such as the robust covariance matrix estimation in the Andersen-Gill approximation; the Wei, Lin and Weissfeld method or the Prentice, Williams and Peterson method; or using the conditional models such as the frailty models (EM algorhthym). The aim of this study is to model multivariate survival data, based on generalised linear mixed models (GLMM). Anàlisi multivariant Multivariate analysis Modelos lineales generalizados Models lineals generalitzats Generalised linear models Investigaciones de supervivencia Survival research Estudis de supervivència Análisis multivariante 33 517
10	How Item Response Theory can solve problems of ipsative data Brown, Anna 25 October 2010 (has links) Multidimensional forced-choice questionnaires can reduce the impact of numerous response biases typically associated with Likert scales. However, if scored with traditional methodology these instruments produce ipsative data, which has psychometric problems, such as constrained total test score and negative average scale inter-correlation. Ipsative scores distort scale relationships and reliability estimates, and make interpretation of scores problematic. This research demonstrates how Item Response Theory (IRT) modeling may be applied to overcome these problems. A multidimensional IRT model for forced-choice questionnaires is introduced, which is suitable for use with any forced-choice instrument composed of items fitting the dominance response model, with any number of measured traits, and any block sizes (i.e. pairs, triplets, quads etc.). The proposed model is based on Thurstone's framework for comparative data. Thurstonian IRT models are normal ogive models with structured factor loadings, structured uniquenesses, and structured local dependencies. These models can be straightforwardly estimated using structural equation modeling (SEM) software Mplus. Simulation studies show how the latent traits are recovered from the comparative binary data under different conditions. The Thurstonian IRT model is also tested with real participants in both research and occupational assessment settings. It is concluded that when the recommended design guidelines are met, scores estimated from forced-choice questionnaires with the proposed methodology reproduce the latent traits well. Forced-choice format Forced-choice questionnaires Ipsative data Comparative judgment Multidimensional IRT Psicometría Psicometria Análisis a escala Anàlisi a escala Teoria de tests Teoría de tests Anàlisi multivariant Análisis multivariante Ciències de la Salut 159.9

Search results