21 |
Predicción a corto plazo de Ia demanda horaria de energía eléctrica en España mediante modelos optimizados de Holt-Winters múltiple estacionalesTrull Domínguez, Óscar 03 April 2020 (has links)
[ES] La desregulación del sector de la electricidad producido por la Ley 54/1997 del Sector Eléctrico provocó un cambio radical en el sistema de gestión de la electricidad, tanto para los productores y distribuidores, como para los propios consumidores. España lideraba un cambio en la política energética buscando una liberalización del mercado en aplicación de la Directiva 96/92/CE del Parlamento Europeo y del Consejo. En este cambio, el Estado abandona la noción de servicio público para el sistema eléctrico y pasa a gestionarse mediante un mercado mayorista operado por sociedades mercantiles. Este cambio se traduce en que la gestión del sistema se realiza mediante un sistema de mercados de oferta y de demanda, y que el Estado únicamente establecerá la regulación pertinente.
Dentro del mismo cambio, se organiza el sistema de modo que aparece el transportista único del sistema, Red Eléctrica de España. Originalmente, este ente debe asegurar el suministro y realizar la panificación de la operativa del sistema, pero con la Ley 17/2007 de la adaptación del sector eléctrico se convierte en el transportista único del sistema. La Ley 24/2013, de 26 de diciembre, del Sector Eléctrico además le atribuye aún mayor responsabilidad, siendo el único operador del transporte y del sistema, adquiriendo la necesidad de realizar previsiones de demanda eléctrica que serán utilizadas en el mercado eléctrico, y, además, de precios de la energía. Estas previsiones se realizan habitualmente mediante la utilización de técnicas de series temporales, utilizando modelos de regresión, ARIMA, redes neuronales o de suavizado exponencial.
Debido a que la energía eléctrica no es fácilmente acumulable, la producción debe estar ajustada a la demanda. Cualquier desfase entre ambas provoca costes enormes que las empresas del sector eléctrico necesitan evitar. Para ello, demandan predicciones del consumo lo más acertadas y fiables posibles.
Esta tesis se centra en el estudio de los modelos de Holt-Winters para ser utilizados en la previsión de demanda eléctrica en España. Estos modelos han demostrado ser sencillos de trabajar y robustos frente a variaciones no controladas y han sido adaptados para trabajar con múltiples estacionalidades. Con ello se han desarrollado nuevos modelos que han permitido mejorar las previsiones.
En primer lugar, se estudia la demanda eléctrica en España, como eje fundamental para el desarrollo de la tesis. Se observa cómo la serie dispone de una características muy relevante: una frecuencia de 24 horas, con una media y varianza que no son constantes. Se observa la presencia de varias estacionalidades que se integran en el modelo, así como una enorme influencia de los días festivos y fines de semana. Por último, se detecta una alta volatilidad. Este análisis permite conocer el comportamiento de la serie e introducir los modelos múltiple-estacionales.
En segundo lugar, se presentan y analizan los modelos de Holt-Winters múltiple-estacionales, como eje vertebrador de la tesis. Estos modelos son los desarrollados en la tesis para conseguir sus objetivos: se presentan los modelos, se analizan los valores iniciales y la optimización de los parámetros, y finalmente se analizan los parámetros.
Finalmente se introducen nuevos elementos en los modelos que permiten mejorar las previsiones realizadas por los mismos. En este aspecto, se incluye la introducción de estacionalidades discretas que permiten modelizar los días festivos; se introducen indicadores turísticos que mejora la previsión en las zonas cuyo producto interior bruto depende altamente del turismo; finalmente, se introduce un modelo híbrido en el que las condiciones climáticas son consideradas y que aumenta la precisión de las previsiones.
Por último, esta tesis viene acompañada de un desarrollo de software específico para la explotación del modelo, desarrollado como Toolbox de MATLAB®.
En definitiva, se desarr / [CA] La desregulació del sector de l'electricitat produït per la Llei 54/1997, del sector elèctric va provocar un canvi radical en el sistema de gestió de l'electricitat, tant per als productors i distribuïdors, com per als propis consumidors. Espanya liderava un canvi en la política energètica buscant una liberalització del mercat aplicant la Directiva 96/92/CE del Parlament Europeu i del Consell. En aquest canvi, l'Estat abandona la noció de servei públic per al sistema elèctric i passa a gestionar-se mitjançant un mercat majorista operat per societats mercantils. Aquest canvi es tradueix en que la gestió del sistema es realitza mitjançant un sistema de mercats d'oferta i de demanda, i que l'Estat únicament ha d'establir la regulació pertinent.
Dins el mateix canvi, s'organitza el sistema de manera que apareix el transportista únic del sistema, Red Eléctrica de España. Originalment, aquest ens ha d'assegurar el subministrament i realitzar la panificació de l'operativa del sistema, però amb la Llei 17/2007 de l'adaptació del sector elèctric es converteix en el transportista únic del sistema. La Llei 24/2013, de 26 de desembre, del sector elèctric a més li atribueix a REE ser l'operador únic del transport i del sistema, adquirint encara més gran responsabilitat i la necessitat de realitzar previsions de demanda elèctrica que seran utilitzades en el mercat elèctric, i, a més, de preus de l'energia. Aquestes previsions es fan habitualment mitjançant la utilització de tècniques de sèries temporals, utilitzant models de regressió, ARIMA, xarxes neuronals o de suavitzat exponencial.
A causa de que l'energia elèctrica no és fàcilment acumulable, la producció ha d'estar ajustada a la demanda. Qualsevol desfasament entre les dues provoca costos enormes que les empreses del sector elèctric necessiten evitar. Per a això, demanen prediccions del consum el més encertades i fiables possibles.
Aquesta tesi se centra en l'estudi dels models de Holt-Winters per ser utilitzats en la previsió de demanda elèctrica a Espanya. Aquests models han demostrat ser senzills de treballar i robustos davant de variacions no controlades i han estat adaptats per treballar amb múltiples estacionalitats. Amb això s'han desenvolupat nous models que han permès millorar les previsions.
En primer lloc, s'estudia la demanda elèctrica a Espanya, com a eix fonamental per al desenvolupament de la tesi. S'observa com la sèrie disposa de característiques molt rellevants: una freqüència de 24 hores, amb una mitjana i variància que no són constants. S'observa la presència de diverses estacionalitats que s'integren en el model, així com una enorme influència dels dies festius i caps de setmana. Finalment, es detecta una alta volatilitat. Aquesta anàlisi permet conèixer el comportament de la sèrie i introduir els models múltiple estacionals.
En segon lloc, es presenten i s'analitzen els models de Holt-Winters múltiple estacionals, com a eix vertebrador de la tesi. Aquests models són els desenvolupats en la tesi per aconseguir els seus objectius: es presenten els models, s'analitzen els valors inicials i l'optimització dels paràmetres, i finalment s'analitzen els paràmetres.
Finalment s'introdueixen nous elements en els models que permeten millorar les previsions realitzades pels mateixos. En aquest aspecte, s'inclou la introducció de estacionalitats discretes que permeten modelitzar els dies festius; s'introdueixen indicadors turístics que millora la previsió en les zones el producte interior brut depèn altament del turisme; finalment, s'introdueix un model híbrid en el qual les condicions climàtiques són considerades i que augmenta la precisió de les previsions.
Addicionalment, aquesta tesi ve acompanyada d'un desenvolupament de programari específic per a l'explotació del model, desenvolupat com Toolbox de Matlab®.
En definitiva, es desenvolupen i implanten nous models de Holt-Winters que pro / [EN] The deregulation of the electricity sector produced by Law 54/1997 of the Electricity Sector caused a radical change in the electricity management system, both for producers and distributors, and for the consumers themselves. Spain was leading a change in energy policy seeking a liberalization of the market by applying Directive 96/92/EC of the European Parliament and the Council. In this change, the State abandons the notion of public service for the electrical system and it is managed through a wholesale market operated by mercantile companies. This change means that the management of the system is carried out through a system of supply and demand markets, and that the State will only establish the relevant regulation.
Within the same change, the system is organized so that the single transporter of the system, Red Eléctrica de España, appears. Originally, this entity must ensure the supply and carry out the baking of the operation of the system, but with the law 17/2007 of the adaptation of the electricity sector becomes the only carrier of the system. Law 24/2013, of December 26, of the Electricity Sector also gives it even greater responsibility, acquiring the need to make forecasts of electric demand that will be used in the electricity market, and, in addition, of energy prices. These forecasts are usually made through the use of time series techniques, using regression models, ARIMA, neural networks or exponential smoothing.
Because electric power is not easily accumulated, production must be adjusted to the demand. Any gap between the two causes huge costs that companies in the electricity sector need to avoid. For this, they demand predictions of consumption as accurate and reliable as possible.
This thesis focuses on the study of Holt-Winters models to be used in forecasting electricity demand in Spain. These models have proven to be simple to work and robust against uncontrolled variations and have been adapted to work with multiple seasons. This new models have been developed that have improved forecasts.
In the first place, the electrical demand in Spain is studied, as a fundamental axis for the development of the thesis. It is observed how the series has very relevant characteristics: a frequency of 24 hours, with a mean and variance that are not constant. It is observed the presence of several seasons that are integrated into the model, as well as a huge influence of holidays and weekends. Finally, high volatility is detected. This analysis allows to know the behavior of the series and introduce the multiple seasonal models.
Secondly, seasonal multiple Holt-Winters models are presented and analyzed as the backbone of the thesis. These models are those developed in the thesis to achieve their objectives: the models are presented, the initial values and the optimization of the parameters are analyzed, and finally the parameters are analyzed.
Finally, new elements are introduced in the models that allow improving the forecasts made by them. In this aspect, the introduction of discrete seasonings that allow modeling holidays is included; Tourist indicators are introduced that improve forecasting in areas whose gross domestic product depends highly on tourism; finally, a hybrid model is introduced in which the climatic conditions are considered and which increases the accuracy of the forecasts.
Additionally, this thesis is accompanied by a development of specific software for the exploitation of the model, developed as MATLAB® Toolbox.
In short, new models of Holt-Winters are developed and implemented that provide more accurate short-term forecasts, which allow the entities that form the electrical system to better plan and manage the electrical system. / Trull Domínguez, Ó. (2020). Predicción a corto plazo de Ia demanda horaria de energía eléctrica en España mediante modelos optimizados de Holt-Winters múltiple estacionales [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/140091
|
22 |
Diseño y mejora de gráficos de control multivariantes para atributos. Un enfoque basado en teoría difusaPastuizaca Fernández, María Nela 02 June 2016 (has links)
[EN] The Statistical Process Control (SPC) is a method used to control the quality characteristics of a product during the production process, determine whether the manufacturing process is or not stable and improve
its capacity through the reduction of variability. One of the main tools used in the SPC is the control chart.
Often the quality of a product is measured through various quality characteristics generally correlated. Multivariate Control charts are a response to the need for quality control in such situations. If the
quality characteristics are qualitative, sometimes it happens that the product quality is defined by linguistic variables and product units are also classified by linguistic forms into several categories, depending on the degree of fulfillment of expectations, creating a situation of fuzzy classifications. The control charts proposed in the literature to deal with such situations are mostly based on simulation and using approximation techniques which hinder the practical application thereof.
This thesis addresses this issue proposing a multivariate control chart for quality characteristics of multi-type attributes correlated based on the T2 control chart of Hotelling, using a fuzzy approach. The results
of the proposed control charts before are improved by establishing a more formal way of measuring and evaluating quality in these diffuse situations.
A method is also proposed to assess the performance of control chart proposed, by deter mining the average run length (ARL), in both in-control state and the out-of-control state. For this, algorithms which use Monte Carlo simulation are developed and implemented in R.
Additionally, the sensitivity of the control chart faced with the choice of the membership functions of linguistic variables is analyzed. / [ES] El Control Estadístico de Procesos (CEP) es un método que se utiliza para controlar las características de calidad de un producto durante el proceso de producción, determinar si los procesos de manufactura son o no estables y mejorar su capacidad a través de la reducción de la variabilidad. Una de las principales herramientas utilizadas en el Control Estadístico de Procesos es el gráfico de control.
Con frecuencia, la calidad de un producto se mide a través de varias características de calidad, generalmente correlacionadas. Los gráficos de control multivariantes son una respuesta a la necesidad de controlar la calidad en tales situaciones. Si las características de calidad son de carácter cualitativo, ocurre en ocasiones que la calidad del producto se
define mediante variables lingüísticas y las unidades de producto se clasifican también de for ma lingüística en varias categorías, dependiendo del grado de cumplimiento de las expectativas, creando una situación de clasificaciones difusas. Los gráficos propuestos en la literatura para tratar con tales situaciones están, en su mayoría, basados en simulación y el uso de técnicas de aproximación que dificultan la aplicación práctica de los mismos.
Esta tesis trata esta cuestión proponiendo un Gráfico de Control multivariante para características de calidad de tipo multi-atributos correlacionados basado en el gráfico T2 de Hotelling, utilizando un enfoque difuso. Se mejora los resultados de los gráficos de control propuestos anterior mente estableciendo una manera más formal de medición y evaluación de la calidad en estas situaciones difusas.
Se propone además un procedimiento para evaluar el rendimiento del gráfico de control propuesto mediante la determinación de la longitud de racha promedio (ARL), tanto para un estado bajo-control como para el estado fuera-de-control. Para ello se desarrollaron algoritmos que utilizan simulación de Monte Carlo y han sido implementados en R.
Adicionalmente, se analiza la sensibilidad del gráfico de control frente a la elección de las funciones de pertenencia de las variables lingüísticas. / [CA] El Control Estadístic de Processos (CEP) és un mètode que s'utilitza per controlar les característiques de qualitat d'un producte durant el procés de producció, deter minar si els processos de manufactura són
o no estables i millorar la seva capacitat a través de la reducció de la variabilitat. Una de les principals eines utilitzades en el Control Estadístic de Processos és el gràfic de control.
Sovint, la qualitat d'un producte es mesura a través de diverses característiques de qualitat, generalment correlacionades. Els gràfics de control multivariants són una resposta a la necessitat de controlar
la qualitat en aquestes situacions. Si les característiques de qualitat són de caràcter qualitatiu, de vegades passa que la qualitat del producte es defineix mitjançant variables lingüístiques i les unitats de producte es
classifiquen també de for ma lingüística en diverses categories, depenent del grau de compliment de les expectatives, creant una situació de classificacions difuses. Els gràfics proposats en la literatura per abordar aquestes situacions són, majoritàriament, basats en simulació i l'ús de tècniques d'aproximació que en dificulten l'aplicació pràctica.
Aquesta tesi tracta de resoldre aquesta qüestió amb la proposta d'un Gràfic de Control multivariant per característiques de qualitat de tipus multi-atributs correlacionats basat en el gràfic T2 de Hotelling, mijançant un enfocament difús. S'hi milloren els resultats de les gràfics de control proposats anterior ment per mitjà d'un mètode més for mal de mesurament i avaluació de la qualitat en aquestes situacions difuses.
S'hi proposa a més un procediment per avaluar el rendiment del gràfic de control proposat mitjançant la deter minació de la longitud de ràfega mitjana (ARL), tant per a un estat en-control com per a l'estat
fora-de-control. Amb aquesta finalitat es van desenvolupar algoritmes que utilitzen simulació de Monte Carlo i han estat implementats en R.
Addicionalment, s'hi analitza la sensibilitat del gràfic de control davant l'elecció de les funcions de pertinença de les variables lingüístiques. / Pastuizaca Fernández, MN. (2016). Diseño y mejora de gráficos de control multivariantes para atributos. Un enfoque basado en teoría difusa [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/65073
|
23 |
Algunas contribuciones a la modelación multinivel en la Investigación Escolar en EspañaTapia Blásquez, Patricia Aurora 11 July 2016 (has links)
[EN] Multilevel modelling has become a powerful tool in the research of school effectiveness. Particularly, finding those factors that influences student achievement in diverse contexts. Recently, Spain has registered an improvement in the research field of Education, but limited in the methodology developed. There are a lot of issues on multilevel models to explore, because most of the models applied in Spanish educative research has been univariate. The aim of this work was to determine the new contributions of multivariate multilevel models adjusting simultaneously two responses. The data was collected from the General Evaluation Diagnostic applied by the Institute of Evaluation on Education in Spain at 2009, which has the purpose to examine the results in Language and Mathematics competences from students coursing fourth grade of elementary education. The sample used was integrated by 28.708 students, 884 teachers, 898 principals, 27.541 parents and 900 schools centers. We had the achievement in each competence by each student, as well as the variables gathered from the survey applied to teachers, parents and directors. The models specified include three levels (Student, classroom and school center), one model for each competence, and one multivariate model in order to compare the results and finding new approaches of using this methodology in the understanding of school effectiveness. We compared the results of the estimators, their standard errors, residuals and variance and covariance matrix. The main conclusion is that there are still sides to take advantage from multilevel multivariate models, which result more integrated models and more powerful to provide information about scholar effectiveness. / [ES] La modelación multinivel se ha convertido en una poderosa herramienta de análisis dentro del campo de la investigación escolar, especialmente en la identificación de factores que contribuyen a explicar el rendimiento de los estudiantes en una pluralidad de contextos. Recientemente, en España se ha avanzado en esta línea pero con un limitado nivel en el desarrollo metodológico. Falta explorar nuevas posibilidades para el análisis de datos anidados, pues la mayoría de investigaciones españolas en eficacia escolar que se han hecho, se han limitado a la aplicación de modelos multinivel univariados. El propósito de este trabajo fue mostrar las nuevas aportaciones que tienen los modelos multinivel multivariados, al ajustar simultáneamente dos o más respuestas, utilizando datos de la Evaluación General de Diagnóstico 2009, aplicada por el Instituto de Evaluación Educativa en España y que tiene por objetivo medir el rendimiento en las competencias básicas del alumnado de cuarto grado de educación básica. Se trabajó con una muestra de 28.708 alumnos, 884 profesores, 898 directores, 25.741 padres de familia y 900 centros escolares de toda España, de la que se obtuvo la información sobre el rendimiento en la competencia lingüística y matemáticas de los alumnos, así como de las variables explicativas para cada nivel, a través de las encuestas que respondieron los padres, profesores y directores de las escuelas. Se especificaron 3 modelos de tres niveles (alumno, aula, escuela), uno para cada competencia por separado (lingüística y matemática) y un modelo multivariado de cuatro niveles que incluye ambas respuestas simultáneamente. Se compararon los resultados de los estimadores, de los errores estándar, los gráficos de los residuos y la matriz de varianzas y covarianzas, así como los efectos asociados a cada uno de los niveles. Se concluye que los modelos multivariantes multinivel ofrecen pruebas más potentes y mayor información en su matriz de varianzas para comprender el fenómeno educativo. / [CA] La modelització multinivell s'ha convertit en una poderosa eina d'anàlisi dins del camp de la investigació' escolar, especialment en la identificació de factors que contribueixen a explicar el rendiment dels estudiants en una pluralitat de contextos. Recentment, en Espanya se ha avançat en aquesta línia però amb un limitat nivell en el desenvolupament metodològic. Falta explorar noves possibilitats per a l'anàlisi de dades niades, doncs la majoria de recerques espanyoles en eficàcia escolar que s'han fet, s'han limitat a l'aplicació de models multinivell univariats. El propòsit d'aquest treball va ser mostrar les noves aportacions que tenen els models multinivell multivariats, en ajustar simultàniament dues o mes respostes, utilitzant dades de l'Avaluació' General de Diagnòstic 2009, aplicada per l'Institut d'Avaluació' Educativa en Espanya i que té per objectiu mesurar el rendiment en les competències bàsiques de l'alumnat de quart grau d'educació' bàsica. Es va treballar amb una mostra de 28.708 alumnes, 884 professors, 898 directors, 25.741 pares de família i 900 centres escolars de tota Espanya, de la qual es va obtenir la informació' sobre el rendiment en la competència lingüística i matemàtiques dels alumnes, així com de les variables explicatives per a cada nivell, a traves de les enquestes que van respondre els pares, professors i directors de les escoles. Es van especificar 3 models de tres nivells (alumne, aula, escola), un per a cada competència per separat (lingüística i matemàtiques) i un model multivariat de quatre nivells que inclou ambdues respostes simultàniament. Es van comparar els resultats dels estimadors, dels errors estàndard, els gràfics dels residus i la matriu de variàncies i covariàncies, així com els efectes associats a cadascun dels nivells. Es conclou que els models multivariantes multinivell ofereixen proves mes potents i major informació' en la seua matriu de variàncies per a comprendre el fenomen educatiu. / Tapia Blásquez, PA. (2016). Algunas contribuciones a la modelación multinivel en la Investigación Escolar en España [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/67388
|
24 |
ESTUDIO DEL BIOFOULING ASOCIADO A CULTIVOS MARINOS "OFFSHORE" EN EL MEDITERRÁNEO ESPAÑOLMeseguer Hernández, Eloy 25 July 2017 (has links)
The present Doctoral Thesis makes the first study on the growth of epibionts in the nets of marine farms of the Western Mediterranean. Also, this Doctoral Thesis is a novel contribution in the field of marine biofouling by collecting information not only taxonomically but also the ecology of the actors and factors involved. The objective of this study is to know the most common epibionts in Mediterranean marine aquaculture nets and their relationship with depth, season, situation on the farm and the response of the epibionts to the presence of a commercial antifouling paint with Based on cuprous oxide, performing for this purpose an exhaustive statistical analysis.
To this end, 192 polyethylene sheets of 400 cm2 were placed on a Spanish southeast sea farm, specifically in the municipality of Villajoyosa (Alicante), at two different depths, with different orientations and antifouling paint and without it. The plates were collected in four periods of the year: in early spring, early summer, early autumn and the last, after 1 year submerged. Macroscopic species were studied at the taxonomic level and the data were treated with the Stathgraphics Centurion XVI.II and Promov software 15,02 to perform the relevant statistical studies.
Nothing has been written before this work on the impact of these paintings on the colonies of the epibionts studied in this thesis, although it has been verified with this thesis that antifouling painting is an effective technique for the fight against marine epibiontes, And that works in addition to any depth and with any orientation. Also, it has been corroborated that the plates were covered more of organisms ,according to the time of exposure in the sea, It had or not antifouling painting,The chronological order of invasion of the plates by the epibionts has also been verified. In addition, the sheets that were located in the discharge area of the fish facility and under the current, were plates populated with a greater number of epibionts, regardless of the depth, orientation or presence of the antifouling paint. / La presente Tesis Doctoral realiza el primer estudio acerca de los crecimientos de epibiontes en las redes de granjas marinas del Mediterráneo Occidental. Asimismo, esta Tesis Doctoral supone una aportación novedosa en el campo del biofouling marino al recoger información no sólo de manera taxonómica sino también de ecología de los actores y factores participantes. Es objeto de este estudio el conocer los epibiontes más comunes en las redes de acuicultura marina mediterránea y su relación con la profundidad, la estación del año, la situación en la granja y la respuesta de los epibiontes ante la presencia de una pintura antifouling comercial con base en óxido cuproso, realizando para ello un exhaustivo análisis estadístico.
Con dicho objetivo, se dispusieron 192 placas de polietileno de 400 cm2 en una granja marina del sudeste español, en concreto en el municipio de Villajoyosa (Alicante), a dos diferentes profundidades, con diferentes orientaciones y con pintura antifouling y sin ella. Las placas se recogieron en cuatro periodos del año: a principios de primavera, a principios de verano, a principios de otoño y las últimas, después de 1 año sumergidas. Se estudiaron a nivel taxonómico las especies macroscópicas y se trataron los datos con el software Stathgraphics Centurion XVI.II y ProMV 15.02 para realizar los estudios estadísticos pertinentes.
No se ha escrito nada antes de este trabajo sobre el impacto de éstas pinturas en las colonizaciones de los epibiontes estudiados, si bien se ha comprobado con esta Tesis que la pintura antifouling es un técnica efectiva para la lucha contra los epibiontes marinos, y que funciona además a cualquier profundidad y con cualquier orientación. Asimismo, se ha corroborado que las placas se cubrían más con organismos conforme transcurría el tiempo de exposición en el mar, tuvieran o no pintura antifouling y sin que ninguna especie llegara a colonizar y desplazar a las especies previas. Se ha podido constatar también el orden cronológico de invasión de las placas por los epibiontes. Además, las placas que se localizaban en la zona de descarga del vertido de la instalación piscícola y estaban a sotacorriente fueron placas pobladas con mayor número de epibiontes, independientemente de la profundidad, orientación o presencia o no de la pintura antifouling. / La present tesi doctoral realitza el primer estudi sobre els creixements de epibionts a les xarxes de granges marines de la Mediterrània Occidental. Així mateix, aquesta tesi doctoral suposa una aportació innovadora en el camp del biofouling marí en recollir informació no només de manera taxonòmica sinó també d'ecologia dels actors i factors participants. És objecte d'aquest estudi el conèixer els epibionts més comuns en les xarxes d'aqüicultura marina mediterrània i la seva relació amb la profunditat, l'estació de l'any, la situació a la granja i la resposta dels epibionts davant la presència d'una pintura antifouling comercial amb base en òxid cuprós, realitzant per a això una exhaustiva anàlisi estadística.
Amb aquest objectiu, es van disposar 192 plaques de polietilè de 400 cm2 en una granja marina del sud-est espanyol, en concret al municipi de la Vila Joiosa (Alacant), a dues diferents profunditats, amb diferents orientacions, i amb I sense pintura antifouling . Les plaques es van recollir en quatre períodes de l'any: a principis de primavera, a principis d'estiu, a principis de tardor i les últimes, després d'1 any submergides. Es van estudiar a nivell taxonòmic les espècies macroscòpiques i es van tractar les dades amb els programes Stathgraphics Centurion XVI.II i ProMV 15.02 per realitzar els estudis estadístics pertinents.
No s'ha escrit res abans d'aquest treball sobre l'impacte d'aquestes pintures en les colonitzacions dels epibionts estudiats , si bé s'ha comprovat en aquesta Tesi que la pintura antifouling és un tècnica efectiva per la lluita contra els epibionts marins, i que funciona a més a qualsevol profunditat i amb qualsevol orientació. Així mateix, s'ha corroborat que les plaques es cobrien amb més organismes a mesura que transcorria el temps d'exposició al mar, tinguessin o no pintura antifouling, i sense que cap espècie arribés a colonitzar i desplaçar a les espècies prèvies. S'ha pogut constatar també l'ordre cronològic d'invasió de les plaques pels epibionts. A més, les plaques que es localitzaven a la zona de descàrrega de l'abocament de la instal·lació piscícola i estaven a sotacorrent van ser plaques poblades amb major nombre d¿epibionts, independentment de la profunditat, orientació o presència o no de la pintura antifouling. / Meseguer Hernández, E. (2017). ESTUDIO DEL BIOFOULING ASOCIADO A CULTIVOS MARINOS "OFFSHORE" EN EL MEDITERRÁNEO ESPAÑOL [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/85679
|
25 |
Metodología espacio-temporal con datos de panel. Estudio de la mortalidad europeaCarracedo Garnateo, Patricia 13 October 2017 (has links)
In recent years, the mortality gap between Eastern and Western European countries is increasing. For this reason, several studies have recently been applied to analyze the differences in European mortality. In order to detect similar mortality groups, there is an urgent need to extend the current studies with spatial studies, which take into account the geographical location of countries, time and their interaction.
This doctoral thesis aims to help public policies so that they can efficiently distribute resources, as well as actuaries, who develop life insurance and design pension plans. In this context, three main objectives are proposed. The first one focuses on how to standardize the crude mortality rate for comparisons between countries. The second is based on the presentation and application of a spatio-temporal methodology based on panel data to carry out the identification of significant groups of European countries with similar mortality over time. The third one deals with the proposal and adaptation of a spatio-temporal methodology to select the best spatial panel data model in order to correctly model spatial and temporal effects. The final model was validated using two measures of goodness of fit: the residual variance and the coefficient of determination. Finally, the routines to section the best spatial model were implemented in R.
The detailed statistical methodology at the theoretical level is applied to mortality data from 26 European countries for a range between 0 to 110+ and a time range of more than 15 years. It is in our interest to apply and display this methodology in a free statistical software R and, therefore, within the reach of all.
The work of this doctoral thesis is part of the research supported by the Ministry of Economy and Competitiveness in the project MTM2013-45381-P, "Longevity differences in the European Union: application of new methods for evaluation and analysis". / En los últimos años, la brecha de mortalidad entre los países del este y del oeste de Europa está aumentando. Por ello, recientemente se han aplicado diversos estudios para analizar las diferencias de la mortalidad europea. Para detectar agrupaciones de mortalidad similar, urge la necesidad de extender los estudios actuales con estudios espaciales, los cuales tienen en cuenta la ubicación geográfica de los países, el tiempo y su interacción.
La presente tesis doctoral pretende servir de ayuda tanto a las políticas públicas para que éstas puedan realizar una distribución eficiente de recursos como a los actuarios, los cuales elaboran seguros de vida y diseñan los planes pensiones. En este contexto, se proponen tres objetivos principales. El primero, se centra en mostrar cómo estandarizar la tasa bruta de mortalidad para poder realizar comparaciones entre países. El segundo, se basa en la presentación y aplicación de una metodología espacio-temporal basada en datos de panel para llevar a cabo la identificación de agrupaciones significativas de países europeos con mortalidad similar a lo largo del tiempo. El tercero, versa en la propuesta y adaptación de una metodología espacio-temporal para seleccionar el mejor modelo espacial de datos de panel con el fin de modelizar de forma correcta el efecto espacial y el temporal. El modelo final se validó utilizando dos medidas de bondad de ajuste: la varianza residual y el coeficiente de determinación. Finalmente, las rutinas para seccionar el mejor modelo espacial se implementaron en R.
La metodología estadística detallada a nivel teórico se aplica a datos de mortalidad de 26 países europeos para un rango de edad comprendido entre 0 a 110+ y un horizonte temporal de más de 15 años. Es de nuestro interés aplicar y mostrar esta metodología en un software estadístico libre R y, por tanto, al alcance de todos.
El trabajo realizado en la presente tesis doctoral se enmarca dentro de la línea de investigación financiada por el Ministerio de Economía y Competitividad en el proyecto MTM2013-45381-P, "Diferencias de longevidad en la Unión Europea: aplicación de nuevos métodos para su evaluación y análisis". / En els últims anys, la bretxa de mortalitat entre els països de l'est i de l'oest d'Europa està augmentant. Per això, recentment s'han aplicat diversos estudis per analitzar les diferències de la mortalitat europea. Per detectar agrupacions de mortalitat similar, urgeix la necessitat d'estendre els estudis actuals amb estudis espacials, els quals tenen en compte la ubicació geogràfica dels països, el temps i la seua interacció.
La present tesi doctoral pretén servir d'ajuda tant a les polítiques públiques perquè aquestes puguen realitzar una distribució eficient de recursos com als actuaris, els quals elaboren assegurances de vida i dissenyen els plans pensions. En aquest context, es proposen tres objectius principals. El primer, se centra a mostrar com estandarditzar la taxa bruta de mortalitat per poder realitzar comparacions entre països. El segon, es basa en la presentació i aplicació d'una metodologia espai-temporal basada en dades de panell per dur a terme la identificació d'agrupacions significatives de països europeus amb mortalitat similar al llarg del temps. El tercer, versa en la proposta i adaptació d'una metodologia espai-temporal per seleccionar el millor model espacial de dades de panell per tal de modelitzar de forma correcta l'efecte espacial i el temporal. El model final es va validar utilitzant dues mesures de bondat d'ajust: la variància residual i el coeficient de determinació. Finalment, les rutines per seccionar el millor model espacial es van implementar en R.
La metodologia estadística detallada a nivell teòric s'aplica a dades de mortalitat de 26 països europeus per a un rang d'edat comprès entre 0 a 110+ i un horitzó temporal de més de 15 anys. És del nostre interès aplicar i mostrar aquesta metodologia en un software estadístic lliure R i, per tant, a l'abast de tots.
El treball realitzat en la present tesi doctoral s'emmarca dins de la línia d'investigació finançada pel Ministeri d'Economia i Competitivitat en el projecte MTM2013-45381-P, "Diferencias de longevidad en la Unión Europea: aplicación de nuevos métodos para su evaluación y análisis". / Carracedo Garnateo, P. (2017). Metodología espacio-temporal con datos de panel. Estudio de la mortalidad europea [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/89080
|
26 |
Monitorización y Predicción de Procesos Multivariantes y Autocorrelacionados. Aplicación a la producción de Tilapia en MozambiqueMulema, Sérgio Afonso 26 November 2018 (has links)
Resumen
La presente tesis aborda los métodos estadísticos de monitorización y predicción de procesos multivariantes y autocorrelacionados en la industria. La investigación se orienta, por un lado, al estudio de los métodos de monitorización que culmina con el desarrollo de un gráfico de control de procesos; y por otro lado, al análisis de los métodos de predicción, donde se elabora el modelo dinámico sobre estructuras latentes (MDEL). En los dos casos, los modelos de series temporales constituyen una herramienta fundamental para modelar la estructura de autocorrelación en los datos.
El estudio del modelo de monitorización sigue un orden lógico de complejidad de los métodos de control de procesos usados en la industria. Se empieza por analizar los gráficos de control univariante; los gráficos multivariantes, y sus limitaciones en el control de procesos autocorrelacionados, con lo cual se introducen los gráficos multivariantes para procesos autocorrelacionados, donde se desarrolla el gráfico de control multivariate autocorrelated and adapted EWMA chart (MAAEWMA).
El desempeño del gráfico MAAEWMA fue comparado con el gráfico MEWMA ajustado a ruidos blancos. Los resultados mostraron que el gráfico MAAEWMA es más rápido en detectar cambios en la media del proceso, y es más eficiente para procesos con media y alta autocorrelación.
Por otro lado, el método predictivo fue elaborado para modelar los procesos multivariantes y autocorrelacionados. Para ello, se estudiaron los métodos sobre estructuras latentes PCA y PLS, y sus respectivas versiones dinámicas: dynamic PCA (DPCA) y dynamic PLS (DPLS).
El desarrollo del modelo dinámico sobre estructuras latentes (MDEL) consistió en la combinación del modelo DPCA y de la función de transferencia (FT). El modelo DPCA fue aplicado a los datos de entrada y de salida del proceso de manera separada para determinar las variables latentes que recogen la máxima variabilidad dinámica en los datos. La estructura dinámica en las variables latentes resultantes fue modelada mediante una función de transferencia para analizar la influencia de los datos de entrada sobre los datos de salida.
Los modelos MDEL y DPLS fueron ajustados en condiciones idénticas a un conjunto de datos simulados. La calidad de ajuste de los modelos fue evaluada mediante la variabilidad explicada de las variables latentes (R2), y la capacidad predictiva fue testada mediante validación cruzada, donde fue calculado el mean absulute error (MAE) de los dos modelos. El MDEL presentó mejores resultados comparado al DPLS, con mayor variabilidad explicada porlas variables latentes, y con una capacidad predictiva robusta y estable.
Los modelos propuestos fueron aplicados para monitorizar y predecir el proceso de cría de tilapia en Mozambique. El gráfico MAAEWMA señló cambios significativos del ambiente acuático en el proceso, y con el modelo MDEL se analizó el impacto de dichos cambios en el crecimiento de la tilapia. / Resum
La present tesi aborda els mètodes estadístics de monitoratge i predicció de processos multivariants i autocorrelacionados en la indústria. La investigació s'orienta, d'una banda, a l'estudi dels mètodes de monitorització que culmina amb el desenvolupament d'un gràfic de control de processos; i d'altra banda, a l'anàlisi dels mètodes de predicció, on s'elabora el model dinàmic sobre estructures latents (MDEL). En els dos casos, els models de s`eries temporals constitueixen una eina fonamental per a modelar l'estructura d'autocorrelació en les dades.
L'estudi del model de monitoratge segueix un ordre lògic de complexitat dels mètodes de control de processos usats en la indústria. Es comença per analitzar els gràfics de control univariant;els gràfics multivariants, i les seves limitacions en el control de processos autocorrelacionados, amb la qual cosa s'introdueixen els gràfics multivariants per a processos autocorrelacionados, on es desenvolupa el gràfic de control multivariate autocorrelated and adapted EWMA chart (MAAEWMA).
L'acompliment del gràfic MAAEWMA va ser comparat amb el gràfic MEWMA ajustat a sorolls blancs. Els resultats van mostrar que el gràfic MAAEMA és més ràpid en detectar canvis en la mitjana del procés, i és més eficient per a processos amb mitja i alta autocorrelació.
D'altra banda, el mètode predictiu va ser elaborat per modelar els processos multivariants i autocorrelacionados. Per a això, es van estudiar els m`etodes sobre estructures latents PCA i PLS, i les seves respectives versions dinàmiques: dynamic PCA (DPCA) i dynamic PLS (DPLS).
El desenvolupament del model dinàmic sobre estructures latents (MDEL) va consistir en la combinació del model DPCA i de la funció de transferència (FT). El model DPCA va ser aplicat a les dades d'entrada i de sortida del procés de manera separada per a determinar les variables latents que recullen la màxima variabilitat dinàmica en les dades. L'estructura din`amica en les variables latents resultants va ser modelada mitjançant una funci¿o de transferència per analitzar la influència de les dades d'entrada sobre les dades de sortida.
Els models mdel i DPLS van ser ajustats en condicions idèntiques a un conjunt de dades simulades. La qualitat d'ajust dels models va ser avaluada mitjançant la variabilitat explicada de les variables latents (R2), i la capacitat predictiva va ser testada mitjançant validació creuada, on va ser calculat el pixen absulute error (MAE) de els dos models. L'mdel presentar millors resultats comparat al DPLS, amb major variabilitat explicada per les variables latents, i amb una capacitat predictiva robusta i estable.
Els models proposats van ser aplicats per monitoritzar i predir el proc¿es de cria de tilapia a Moçambic. El gràfic MAAEWMA va assenyalar canvis significatius de l'ambient aquàtic en el procés, i amb el model mdel es va analitzar l'impacte d'aquests canvis en el creixement de la tilàpia. / Abstract
This thesis is based on statistical methods to monitor and predict the multivariate and autocorrelated industrial processes. The research is oriented on the monitoring methods that culminate with the development of a process control chart and analysis of the prediction methods, where the dynamic model on latent structures (MDEL) was developed. In both cases, the time series models were used to model the autocorrelation structure in the data.
The analysis of the monitoring models follows a logical order of complexity of the process control methods used in the industry. The univariate and multivariate charts were analysed, and their limitations in the control of autocorrelated processes were considered. Therefore, the multivariate charts for autocorrelated processes were introduced and the multivariate, autocorrelated and adapted EWMA chart (MAAEWMA) was developed. The performance of the MAAEWMA chart was compared with the MEWMA chart adjusted to white noise. The results showed that the MAAEWMA chart was faster in detecting changes in the process mean and was more efficient for processes with medium and high autocorrelation.
On the other hand, the predictive method was developed to model the multivariate and autocorrelated processes. To this end, the methods on latent structures PCA and PLS and their respective dynamic versions: dynamic PCA (DPCA) and dynamic PLS (DPLS) were studied.
The dynamic model on latent structures (MDEL) consists of the combination of DPCA model and the transfer function (FT). The DPCA model was applied separately to the input and output data of the process. This strategy was applied to guarantee the maximum dynamic variability in the latent varia- bles. The dynamic structure in the latent variables was modelled by a transfer function to analyse the influence of the input on the output data.
The MDEL and DPLS models were adjusted in identical conditions to a set of simulated data. The goodness of fit was evaluated by the explained variability of the latent variables (R2) and the predictive capacity of the models was tested through cross validation, where the mean absolute error (MAE) was calculated. The MDEL presented better results than DPLS model, with greater variability explained by the latent variables and a robust and stable predictive capacity.
The proposed models were applied to monitor and predict the tilapia crop process in Mozambique. The MAAEWMA chart indicated significant changes in the aquatic environmentand and with the MDEL was analysed the impact of these changes on the growth of tilapia. / Mulema, SA. (2018). Monitorización y Predicción de Procesos Multivariantes y Autocorrelacionados. Aplicación a la producción de Tilapia en Mozambique [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/113070
|
27 |
Gráficos de control por atributos con curvas ARL cuasi insesgadas: Análisis y desarrollo de métodosArgoti Morales, Marco Antonio 06 May 2019 (has links)
[ES] Los gráficos de control por atributos son herramientas estadísticas ampliamente utilizadas tanto en la industria de bienes como en la de servicios y sirven para monitorizar procesos mediante atributos de calidad. Los gráficos por atributos uni-variantes están entre los más conocidos y son el tema central de esta tesis. Estos gráficos se dividen en dos tipos: los basados en la distribución binomial (Gráficos np y p) y aquellos basados en la distribución de Poisson (Gráficos c y u).
Los gráficos por atributos Shewhart son sin lugar a duda los más populares y tienen la particularidad de que sus límites de control se basan en la aproximación normal a las distribuciones binomial y de Poisson. Cuando se utilizan estos gráficos lo habitual es asumir que, siempre y cuando la aproximación normal sea adecuada, su capacidad de monitorización será idónea, es decir que podrán detectar de igual manera tanto mejoras como deterioros del proceso.
En esta tesis se demuestra que, debido a la asimetría de las distribuciones binomial y de Poisson, el ajuste de la aproximación normal es impreciso en las colas de esas distribuciones y que eso afecta negativamente la potencia de detección de los gráficos Shewhart. Para poder establecer la magnitud de la afectación, se desarrollaron varios parámetros novedosos que sirven para evaluar y caracterizar la capacidad de monitorización de cualquier gráfico por atributos del tipo uni-variante. Por medio de estos parámetros se estableció que los gráficos Shewhart, al contrario de lo que se presume, están lejos de ser idóneos.
Los nuevos parámetros mencionados en el párrafo anterior, también sirvieron para analizar gráficos de control planteados como alternativas superiores a los Shewhart. Los resultados de los análisis demostraron que esos gráficos tampoco tienen una capacidad de monitorización del todo satisfactoria.
Dos nuevos gráficos de control, el p Kmod y el u Kmod, son propuestos. Estos gráficos tienen una capacidad de monitorización superior a cualquier otro gráfico de control (p y u respectivamente) incluido en esta tesis y además cuentan con un método de fácil uso mediante el cual es posible establecer si esa capacidad es o no óptima.
Los resultados de la investigación han sido publicados en actas de congresos y en revistas científicas internacionales. / [CA] Els gràfics de control per atributs són ferramentes estadístiques àmpliament utilitzades tant en la indústria de béns com en la de serveis i serveixen per a monitoritzar processos per mitjà d'atributs de qualitat. Els gràfics per atributs uni- variants estan entre els més coneguts i són el tema central d'esta tesi. Existeixen dos tipus: els gràfics basats en la distribució binomial (Gràfics np i p) i els gràfics basats en la distribució de Poisson (Gràfics c i u).
Els gràfics per atributs Shewhart són sens dubte els més populars i tenen la particularitat que els seus límits de control es basen en l'aproximació normal a les distribucions binomial i de Poisson. Quan s'utilitzen estos gràfics allò més habitual és assumir que, sempre que l'aproximació normal siga adequada, la seua capacitat de monitorització serà idònia, és a dir que podran detectar de la mateixa manera tant millores com deterioraments del procés.
En aquesta tesi es demostra que, a causa de la asimetria de les distribucions binomial i de Poisson, l'ajust de l'aproximació normal és imprecís en les cues d'eixes distribucions i que això afecta negativament la potència de detecció dels gràfics Shewhart. Per a poder establir la magnitud de l'afectació es van desenrotllar diversos paràmetres nous que servixen per a avaluar i caracteritzar la capacitat de monitorització de qualsevol gràfic per atributs del tipus univariant. A través d'ells es va establir que els gràfics Shewhart, al contrari del que es presumeix, estan lluny de ser idonis.
Els nous paràmetres mencionats en el paràgraf anterior també van servir per a analitzar gràfics de control plantejats com a alternatives superiors als Shewhart. Els resultats de les anàlisis van demostrar que tampoc tenen una capacitat de monitorització del tot satisfactòria.
Dos nous gràfics de control, el p Kmod i el u Kmod, són proposats. Estos gràfics tenen una capacitat de monitorització superior a qualsevol altre gràfic de control (p i u respectivament) inclòs en esta tesi, a més de comptar amb un mètode de fàcil ús, per mitjà del qual és possible establir si eixa capacitat és òptima o no.
Els resultats de la investigació han sigut publicats en actes de congressos i en revistes científiques internacionals. / [EN] Attribute control charts are statistical tools that are widely used in the goods and services industries, they serve to monitor processes by means of product quality attributes. The uni-variant attribute charts are amongst the most well-known and are the main topic of this thesis. Two types of such charts exist, namely: the ones based on the binomial distribution (np and p Charts) and the ones based on the Poisson distribution (c and u Charts).
The Shewhart attribute charts are without doubt the most popular and have the peculiarity that their control limits are based on the normal approximation to the binomial and Poisson distributions. When these charts are used it is commonly assumed that, as long as the normal approximation is adequate, their monitoring capability will be ideal, or in other words, that they will be able to detect with equal capacity, either process improvements or deteriorations.
In this thesis we show that due to asymmetry of the binomial and Poisson distributions, the adjustment of the normal approximation is inaccurate on their tail sides and that this affects on a detrimental way the detection power of the Shewhart charts. In order to be able to establish the magnitude of the affectation, various novel parameters that serve to assess and characterised the monitoring capability of any uni-attribute type chart were developed. Through them it was established that the Shewhart charts, contrary to what is commonly assumed, are far from being ideal.
The aforementioned novel parameters, also served to analyse other control charts posed as superior alternatives to the Shewhart¿s. The analysis results demonstrated that those charts, although superior to the Shewhart¿s, also have a far from satisfactory monitoring capability.
Two new control charts, the p Kmod and the u Kmod, are proposed. These charts have a superior monitoring capability compared to any other chart (p and u respectively) included in this thesis, in addition they have an easy to use method that makes it possible to establish if their monitoring capability is, or is not, ideal.
The results of the research have been published in congress proceedings and international scientific journals. / A la Secretaria de Educación Superior, Ciencia, Tecnología e Innovación (SENESCYT) del
Ecuador, por auspiciar y darme la oportunidad de realizar mis estudios doctorales en España. / Argoti Morales, MA. (2019). Gráficos de control por atributos con curvas ARL cuasi insesgadas: Análisis y desarrollo de métodos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/120025
|
28 |
Use of multivariate statistical methods for the analysis of metabolomic dataHervás Marín, David 12 November 2019 (has links)
[ES] En las últimas décadas los avances tecnológicos han tenido como consecuencia la generación de una creciente cantidad de datos en el campo de la biología y la biomedicina. A día de hoy, las así llamadas tecnologías "ómicas", como la genómica, epigenómica, transcriptómica o metabolómica entre otras, producen bases de datos con cientos, miles o incluso millones de variables.
El análisis de datos ómicos presenta una serie de complejidades tanto metodoló-gicas como computacionales que han llevado a una revolución en el desarrollo de nuevos métodos estadísticos específicamente diseñados para tratar con este tipo de datos.
A estas complejidades metodológicas hay que añadir que, en la mayor parte de los casos, las restricciones logísticas y/o económicas de los proyectos de investigación suelen conllevar que los tamaños muestrales en estas bases de datos con tantas variables sean muy bajos, lo cual no hace sino empeorar las dificultades de análisis, ya que se tienen muchísimas más variables que observaciones.
Entre las técnicas desarrolladas para tratar con este tipo de datos podemos encontrar algunas basadas en la penalización de los coeficientes, como lasso o elastic net, otras basadas en técnicas de proyección sobre estructuras latentes como PCA o PLS y otras basadas en árboles o combinaciones de árboles como random forest.
Todas estas técnicas funcionan muy bien sobre distintos datos ómicos presentados en forma de matriz (IxJ). Sin embargo, en ocasiones los datos ómicos pueden estar expandidos, por ejemplo, al tomar medidas repetidas en el tiempo sobre los mismos individuos, encontrándonos con estructuras de datos que ya no son matrices, sino arrays tridimensionales o three-way (IxJxK). En estos casos, la mayoría de las técnicas citadas pierden parte de su aplicabilidad, quedando muy pocas opciones viables para el análisis de este tipo de estructuras de datos.
Una de las técnicas que sí es útil para el análisis de estructuras three-way es N-PLS, que permite ajustar modelos predictivos razonablemente precisos, así como interpretarlos mediante distintos gráficos.
Sin embargo, relacionado con el problema de la escasez de tamaño muestral relativa al desorbitado número de variables, aparece la necesidad de realizar una selección de variables relacionadas con la variable respuesta. Esto es especialmente cierto en el ámbito de la biología y la biomedicina, ya que no solo se quiere poder predecir lo que va a suceder, sino entender por qué sucede, qué variables están implicadas y, a poder ser, no tener que volver a recoger los cientos de miles de variables para realizar una nueva predicción, sino utilizar unas cuantas, las más importantes, para poder diseñar kits predictivos coste/efectivos de utilidad real. Por ello, el objetivo principal de esta tesis es mejorar las técnicas existentes para el análisis de datos ómicos, específicamente las encaminadas a analizar datos three-way, incorporando la capacidad de selección de variables, mejorando la capacidad predictiva y mejorando la interpretabilidad de los resultados obtenidos. Todo ello se implementará además en un paquete de R completamente documentado, que incluirá todas las funciones necesarias para llevar a cabo análisis completos de datos three-way.
El trabajo incluido en esta tesis por tanto, consta de una primera parte teórico-conceptual de desarrollo de la idea del algoritmo, así como su puesta a punto, validación y comprobación de su eficacia; de una segunda parte empírico-práctica de comparación de los resultados del algoritmo con otras metodologías de selección de variables existentes, y de una parte adicional de programación y desarrollo de software en la que se presenta todo el desarrollo del paquete de R, su funcionalidad y capacidades de análisis.
El desarrollo y validación de la técnica, así como la publicación del paquete de R, ha permitido ampliar las opciones actuales para el análisis / [CA] En les últimes dècades els avançaments tecnològics han tingut com a conseqüència la generació d'una creixent quantitat de dades en el camp de la biologia i la biomedicina. A dia d'avui, les anomenades tecnologies "òmiques", com la genòmica, epigenòmica, transcriptòmica o metabolòmica entre altres, produeixen bases de dades amb centenars, milers o fins i tot milions de variables.
L'anàlisi de dades 'òmiques' presenta una sèrie de complexitats tant metodolò-giques com computacionals que han portat a una revolució en el desenvolupament de nous mètodes estadístics específicament dissenyats per a tractar amb aquest tipus de dades.
A aquestes complexitats metodològiques cal afegir que, en la major part dels casos, les restriccions logístiques i / o econòmiques dels projectes de recerca solen comportar que les magnituts de les mostres en aquestes bases de dades amb tantes variables siguen molt baixes, el que no fa sinó empitjorar les dificultats d'anàlisi, ja que es tenen moltíssimes més variables que observacions
Entre les tècniques desenvolupades per a tractar amb aquest tipus de dades podem trobar algunes basades en la penalització dels coeficients, com lasso o elastic net, altres basades en tècniques de projecció sobre estructures latents com PCA o PLS i altres basades en arbres o combinacions d'arbres com random forest.
Totes aquestes tècniques funcionen molt bé sobre diferents dades 'òmiques' presentats en forma de matriu (IxJ), però, en ocasions les dades òmiques poden estar expandits, per exemple, cuan ni ha mesures repetides en el temps sobre els mateixos individus, trobant-se amb estructures de dades que ja no són matrius, sinó arrays tridimensionals o three-way (IxJxK). En aquestos casos, la majoria de les tècniques mencionades perden tota o bona part de la seua aplicabilitat, quedant molt poques opcions viables per a l'anàlisi d'aquest tipus d'estructures de dades.
Una de les tècniques que sí que és útil per a l'anàlisi d'estructures three-way es N-PLS, que permet ajustar models predictius raonablement precisos, així com interpretar-los mitjançant diferents gràfics.
No obstant això, relacionat amb el problema de l'escassetat de mostres relativa al desorbitat nombre de variables, apareix la necessitat de realitzar una selecció de variables relacionades amb la variable resposta. Això és especialment cert en l'àmbit de la biologia i la biomedicina, ja que no només es vol poder predir el que va a succeir, sinó entendre per què passa, quines variables estan implicades i, si pot ser, no haver de tornar a recollir els centenars de milers de variables per realitzar una nova predicció, sinó utilitzar unes quantes, les més importants, per poder dissenyar kits predictius cost / efectius d'utilitat real. Per això, l'objectiu principal d'aquesta tesi és millorar les tècniques existents per a l'anàlisi de dades òmiques, específicament les encaminades a analitzar dades three-way, incorporant la capacitat de selecció de variables, millorant la capacitat predictiva i millorant la interpretabilitat dels resultats obtinguts. Tot això s'implementarà a més en un paquet de R completament documentat, que inclourà totes les funcions necessàries per a dur a terme anàlisis completes de dades three-way.
El treball inclòs en aquesta tesi per tant, consta d'una primera part teorica-conceptual de desenvolupament de la idea de l'algoritme, així com la seua posada a punt, validació i comprovació de la seua eficàcia, d'una segona part empíric-pràctica de comparació dels resultats de l'algoritme amb altres metodologies de selecció de variables existents i d'una part adicional de programació i desenvolupament de programació en la qual es presenta tot el desenvolupament del paquet de R, la seua funcionalitat i capacitats d'anàlisi.
El desenvolupament i validació de la tècnica, així com la publicació del paquet de R, ha permès ampliar les opcions actuals per a l'anàlis / [EN] In the last decades, advances in technology have enabled the gathering of an increasingly amount of data in the field of biology and biomedicine. The so called "-omics" technologies such as genomics, epigenomics, transcriptomics or metabolomics, among others, produce hundreds, thousands or even millions of variables per data set.
The analysis of 'omic' data presents different complexities that can be methodological and computational. This has driven a revolution in the development of new statistical methods specifically designed for dealing with these type of data.
To this methodological complexities one must add the logistic and economic restrictions usually present in scientific research projects that lead to small sample sizes paired to these wide data sets. This makes the analyses even harder, since there is a problem in having many more variables than observations.
Among the methods developed to deal with these type of data there are some based on the penalization of the coefficients, such as lasso or elastic net, others based on projection techniques, such as PCA or PLS, and others based in regression or classification trees and ensemble methods such as random forest.
All these techniques work fine when dealing with different 'omic' data in matrix format (IxJ), but sometimes, these IxJ data sets can be expanded by taking, for example, repeated measurements at different time points for each individual, thus having IxJxK data sets that raise more methodological complications to the analyses. These data sets are called three-way data. In this cases, the majority of the cited techniques lose all or a good part of their applicability, leaving very few viable options for the analysis of this type of data structures.
One useful tool for analyzing three-way data, when some Y data structure is to be predicted, is N-PLS. N-PLS reduces the inclusion of noise in the models and obtains more robust parameters when compared to PLS while, at the same time, producing easy-to-understand plots.
Related to the problem of small sample sizes and exorbitant variable numbers, comes the issue of variable selection. Variable selection is essential for facilitating biological interpretation of the results when analyzing 'omic' data sets. Often, the aim of the study is not only predicting the outcome, but also understanding why it is happening and also what variables are involved. It is also of interest being able to perform new predictions without having to collect all the variables again. Because all of this, the main goal of this thesis is to improve the existing methods for 'omic' data analysis, specifically those for dealing with three-way data, incorporating the ability of variable selection, improving predictive capacity and interpretability of results. All this will be implemented in a fully documented R package, that will include all the necessary functions for performing complete analyses of three-way data.
The work included in this thesis consists in a first theoretical-conceptual part where the idea and development of the algorithm takes place, as well as its tuning, validation and assessment of its performance. Then, a second empirical-practical part comes where the algorithm is compared to other variable selection methodologies. Finally, an additional programming and software development part is presented where all the R package development takes place, and its functionality and capabilities are exposed.
The development and validation of the technique, as well as the publication of the R package, has opened many future research lines. / Hervás Marín, D. (2019). Use of multivariate statistical methods for the analysis of metabolomic data [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/130847
|
29 |
Control estadístico de variables cuantitativas mediante inspección por atributos apoyada en el diseño de galgas con dimensiones óptimasMosquera Restrepo, Jaime 16 December 2019 (has links)
[ES] En el Control Estadístico de Procesos, los gráficos de control por variables suelen ser la herramienta empleada para vigilar el comportamiento de una característica cuantitativa de calidad. Para implementar estos gráficos se requiere de la medición periódica de una muestra de unidades del proceso. En algunos procesos, obtener una medición exacta de la variable de calidad es una tarea compleja, que demanda gran cantidad de recursos (costos, tiempo, mano de obra), o que deteriora/destruye la pieza inspeccionada. En estos casos, una alternativa más ágil y económica consiste en realizar el control basado en la verificación de piezas con una galga. Dado que la verificación con una galga suele ser tan sencilla como la verificación de un atributo, el control basado en galgas es mucho más ágil y económico que el control basado en mediciones exactas.
En la literatura del Control Estadístico de Procesos se encuentran múltiples propuestas de esquemas de control basado en inspección por galgas. En esta Tesis doctoral realizamos una detallada revisión de estas propuestas y proponemos un nuevo esquema de control basado en galgas, cuyo desempeño estadístico es siempre igual o mejor que el de cualquiera de las propuestas previas. Este esquema es diseñado para el control de la media/varianza de una variable de calidad con distribución normal y posteriormente es extendido para el control de estos parámetros en distribuciones asimétricas (log-normal, skew-normal y Weibull).
Adicionalmente, sobre el nuevo esquema de control basado en galgas, se realiza una adaptación de las estrategias de tamaño de muestra adaptativo, Doble muestreo y Tamaño de Muestra Variable, e incorporamos memoria al estadístico de control a través de un esquema de pesos exponencialmente ponderados EWMA. Como resultado se obtienen nuevos esquemas de control, cuya operación e implementación es tan sencilla como la de los gráficos de control por atributos, pero con mejor desempeño estadístico que los gráficos de control por variables. / [CA] En el Control Estadístic de Processos, els gràfics de control per variables solen ser la ferramenta empleada per a vigilar el comportament d'una característica quantitativa de qualitat. Per a implementar estos gràfics es requerix del mesurament periòdic d'una mostra d'unitats del procés. En alguns processos, obtindre un mesurament exacte de la variable de qualitat és una tasca complexa, que demanda gran quantitat de recursos (costos, temps, mà d'obra) , o que deteriora/ destruïx la peça inspeccionada. En estos casos, una alternativa més àgil i econòmica consistix a realitzar el control basat en la verificació de peces amb una llebrera. Atés que la verificació amb una llebrera sol ser tan senzilla com la verificació d'un atribut, el control basat en llebreres és molt més àgil i econòmic que el control basat en mesuraments exactes.
En la literatura del Control Estadístic de Processos es troben múltiples propostes d'esquemes de control basat en inspecció per llebreres. En esta Tesi doctoral realitzem una detallada revisió d'estes propostes i proposem un nou esquema de control basat en llebreres, l'exercici estadístic del qual és sempre igual o millor que el de qualsevol de les propostes prèvies. Este esquema és dissenyat per al control de la media/varianza d'una variable de qualitat amb distribució normal i posteriorment és estés per al control d'estos paràmetres en distribucions asimètriques (log-normal, skew-normal i Weibull).
Addicionalment, sobre el nou esquema de control basat en llebreres, es realitza una adaptació de les estratègies de grandària de mostra adaptatiu, Doble mostratge i Grandària de Mostra Variable, i incorporem memòria a l'estadístic de control a través d'un esquema de pesos exponencialment ponderats EWMA. Com resultat s'obtenen nous esquemes de control, l'operació i implementació és tan senzilla com la dels gràfics de control per atributs, però amb millor exercici estadístic que els gràfics de control per variables. / [EN] In Statistical Process Control, control charts by variables are usually the tool used to monitor a quantitative quality characteristic. To implement these charts, periodic measurement of a sample of process units is required. In some processes, obtaining an accurate measurement of the quality variable is a complex task, which demands a large amount of resources (costs, time, labor), or that deteriorates / destroys the inspected unit. In these cases, a more agile and economical alternative is to perform the control based on the verificatión of units with a gauge. Since the verificatión with a gauge is usually as simple as checking an attribute, the control based on gauges is much more agile and economical than the control based on exact measurements.
Several proposals of control schemes based on inspectión by gauges are found in the Statistical Process Control literature. In this PhD thesis we review these proposals and propose a new control scheme based on gauges, whose statistical performance is always the same or better than that of any of the previous proposals. This scheme is designed for the control of the means / variance of a quality variable with normal distributión and is subsequently extended for the control of these parameters in asymmetric distributións (log-normal, skew-normal and Weibull).
In additión, on the new gauge-based control scheme, an adaptatión of the adaptive sample size: double sampling and variable sample size strategies, is carried out, and incorporates memory to the control statistic through an exponentially weighted EWMA weights scheme. As a result, new control schemes were obtained, whose operatión and implementatión is as simple as that of the control charts by attributes, but with a best statistical performance than the control charts by variables. / Inicialmente quiero agradecer a la Universidad del Valle, Cali – Colombia, por el
soporte económico que me brindaron para garantizar mi estancia en la ciudad de
Valencia y para el desarrollo de esta tesis doctoral. / Mosquera Restrepo, J. (2019). Control estadístico de variables cuantitativas mediante inspección por atributos apoyada en el diseño de galgas con dimensiones óptimas [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/133059
|
30 |
Statistical methods for time course microarray dataNueda Roldán, María José 02 September 2009 (has links)
La tesis aborda el análisis estadístico de series simples y múltiples de experimentos de "Time Course Microarray" (TCM). El trabajo se centra en el desarrollo, aplicación y evaluación de métodos estadísticos específicos que consideran la problemática de este tipo de datos, tanto desde el punto de vista de selección de genes como del análisis funcional. Las técnicas desarrolladas se comparan con otros métodos del estado del arte actual evaluando las diferentes metodologías en términos de eficiencia y significado biológico de los resultados.
En la tesis se incluye la descripción del funcionamiento de la tecnología de "microarrays" así como una revisión crítica de los métodos estadísticos aplicados a este tipo de datos mostrando los inconvenientes que surgen al aplicar métodos generales a series temporales de "microarrays" y justificando la necesidad de desarrollar nuevas técnicas para el análisis de TCM.
La primera técnica desarrollada es maSigPro ("microarray Significant Profile") que usa análisis de regresión lineal para modelar la expresión génica y lleva a cabo una estrategia en dos pasos para seleccionar los genes diferencialmente expresados. La aplicación de la técnica multivariantes ASCA (ANOVA "Simultaneous Component Analysis") a datos de TCM da como resultado el método ASCA-genes que combina la exploración multivariante de datos con un procedimiento de selección para identificación de genes con cambios relevantes. El método ASCA es también usado para crear una estrategia de filtrado de datos de gran utilidad para eliminar el alto nivel de ruido estructural de los datos de microarrays. Por último, se desarrollan métodos estadísticos para una evaluación directa e integrada de las alteraciones que pueden sufrir las funciones génicas en TCM. Para este propósito, se ha adaptado las técnicas maSigPro, ASCA y PCA incorporándoles información funcional obteniendo las metodologías maSigFun, PCA-maSigFun y ASCA-functional. / Nueda Roldán, MJ. (2009). Statistical methods for time course microarray data [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/6061
|
Page generated in 0.0927 seconds