Spelling suggestions: "subject:"mínimos quadrados parciales (PLS)"" "subject:"mínimos quadrados marciales (PLS)""
1 |
A Statistical Methodology for Classifying Time Series in the Context of Climatic DataRamírez Buelvas, Sandra Milena 24 February 2022 (has links)
[ES] De acuerdo con las regulaciones europeas y muchos estudios científicos, es necesario monitorear y analizar las condiciones microclimáticas en museos o edificios, para preservar las obras de arte en ellos. Con el objetivo de ofrecer herramientas para el monitoreo de las condiciones climáticas en este tipo de edificios, en esta tesis doctoral se propone una nueva metodología estadística para clasificar series temporales de parámetros climáticos como la temperatura y humedad relativa. La metodología consiste en aplicar un método de clasificación usando variables que se computan a partir de las series de tiempos. Los dos primeros métodos de clasificación son versiones conocidas de métodos sparse PLS que no se habían aplicado a datos correlacionados en el tiempo. El tercer método es una nueva propuesta que usa dos algoritmos conocidos. Los métodos de clasificación se basan en diferentes versiones de un método sparse de análisis discriminante de mínimos cuadra- dos parciales PLS (sPLS-DA, SPLSDA y sPLS) y análisis discriminante lineal (LDA). Las variables que los métodos de clasificación usan como input, corresponden a parámetros estimados a partir de distintos modelos, métodos y funciones del área de las series de tiempo, por ejemplo, modelo ARIMA estacional, modelo ARIMA- TGARCH estacional, método estacional Holt-Winters, función de densidad espectral, función de autocorrelación (ACF), función de autocorrelación parcial (PACF), rango móvil (MR), entre otras funciones. También fueron utilizadas algunas variables que se utilizan en el campo de la astronomía para clasificar estrellas. En los casos que a priori no hubo información de los clusters de las series de tiempos, las dos primeras componentes de un análisis de componentes principales (PCA) fueron utilizadas por el algoritmo k- means para identificar posibles clusters de las series de tiempo. Adicionalmente, los resultados del método sPLS-DA fueron comparados con los del algoritmo random forest. Tres bases de datos de series de tiempos de humedad relativa o de temperatura fueron analizadas. Los clusters de las series de tiempos se analizaron de acuerdo a diferentes zonas o diferentes niveles de alturas donde fueron instalados sensores para el monitoreo de las condiciones climáticas en los 3 edificios.El algoritmo random forest y las diferentes versiones del método sparse PLS fueron útiles para identificar las variables más importantes en la clasificación de las series de tiempos. Los resultados de sPLS-DA y random forest fueron muy similares cuando se usaron como variables de entrada las calculadas a partir del método Holt-Winters o a partir de funciones aplicadas a las series de tiempo. Aunque los resultados del método random forest fueron levemente mejores que los encontrados por sPLS-DA en cuanto a las tasas de error de clasificación, los resultados de sPLS- DA fueron más fáciles de interpretar. Cuando las diferentes versiones del método sparse PLS utilizaron variables resultantes del método Holt-Winters, los clusters de las series de tiempo fueron mejor discriminados. Entre las diferentes versiones del método sparse PLS, la versión sPLS con LDA obtuvo la mejor discriminación de las series de tiempo, con un menor valor de la tasa de error de clasificación, y utilizando el menor o segundo menor número de variables.En esta tesis doctoral se propone usar una versión sparse de PLS (sPLS-DA, o sPLS con LDA) con variables calculadas a partir de series de tiempo para la clasificación de éstas. Al aplicar la metodología a las distintas bases de datos estudiadas, se encontraron modelos parsimoniosos, con pocas variables, y se obtuvo una discriminación satisfactoria de los diferentes clusters de las series de tiempo con fácil interpretación. La metodología propuesta puede ser útil para caracterizar las distintas zonas o alturas en museos o edificios históricos de acuerdo con sus condiciones climáticas, con el objetivo de prevenir problemas de conservación con las obras de arte. / [CA] D'acord amb les regulacions europees i molts estudis científics, és necessari monitorar i analitzar les condiciones microclimàtiques en museus i en edificis similars, per a preservar les obres d'art que s'exposen en ells. Amb l'objectiu d'oferir eines per al monitoratge de les condicions climàtiques en aquesta mena d'edificis, en aquesta tesi es proposa una nova metodologia estadística per a classificar series temporals de paràmetres climàtics com la temperatura i humitat relativa.La metodologia consisteix a aplicar un mètode de classificació usant variables que es computen a partir de les sèries de temps. Els dos primers mètodes de classificació són versions conegudes de mètodes sparse PLS que no s'havien aplicat adades correlacionades en el temps. El tercer mètode és una nova proposta que usados algorismes coneguts. Els mètodes de classificació es basen en diferents versions d'un mètode sparse d'anàlisi discriminant de mínims quadrats parcials PLS (sPLS-DA, SPLSDA i sPLS) i anàlisi discriminant lineal (LDA). Les variables queels mètodes de classificació usen com a input, corresponen a paràmetres estimats a partir de diferents models, mètodes i funcions de l'àrea de les sèries de temps, per exemple, model ARIMA estacional, model ARIMA-TGARCH estacional, mètode estacional Holt-Winters, funció de densitat espectral, funció d'autocorrelació (ACF), funció d'autocorrelació parcial (PACF), rang mòbil (MR), entre altres funcions. També van ser utilitzades algunes variables que s'utilitzen en el camp de l'astronomia per a classificar estreles. En els casos que a priori no va haver-hi información dels clústers de les sèries de temps, les dues primeres components d'una anàlisi de components principals (PCA) van ser utilitzades per l'algorisme k-means per a identificar possibles clústers de les sèries de temps. Addicionalment, els resultats del mètode sPLS-DA van ser comparats amb els de l'algorisme random forest.Tres bases de dades de sèries de temps d'humitat relativa o de temperatura varen ser analitzades. Els clústers de les sèries de temps es van analitzar d'acord a diferents zones o diferents nivells d'altures on van ser instal·lats sensors per al monitoratge de les condicions climàtiques en els edificis.L'algorisme random forest i les diferents versions del mètode sparse PLS van ser útils per a identificar les variables més importants en la classificació de les series de temps. Els resultats de sPLS-DA i random forest van ser molt similars quan es van usar com a variables d'entrada les calculades a partir del mètode Holt-winters o a partir de funcions aplicades a les sèries de temps. Encara que els resultats del mètode random forest van ser lleument millors que els trobats per sPLS-DA quant a les taxes d'error de classificació, els resultats de sPLS-DA van ser més fàcils d'interpretar.Quan les diferents versions del mètode sparse PLS van utilitzar variables resultants del mètode Holt-Winters, els clústers de les sèries de temps van ser més ben discriminats. Entre les diferents versions del mètode sparse PLS, la versió sPLS amb LDA va obtindre la millor discriminació de les sèries de temps, amb un menor valor de la taxa d'error de classificació, i utilitzant el menor o segon menor nombre de variables.En aquesta tesi proposem usar una versió sparse de PLS (sPLS-DA, o sPLS amb LDA) amb variables calculades a partir de sèries de temps per a classificar series de temps. En aplicar la metodologia a les diferents bases de dades estudiades, es van trobar models parsimoniosos, amb poques variables, i varem obtindre una discriminació satisfactòria dels diferents clústers de les sèries de temps amb fácil interpretació. La metodologia proposada pot ser útil per a caracteritzar les diferents zones o altures en museus o edificis similars d'acord amb les seues condicions climàtiques, amb l'objectiu de previndre problemes amb les obres d'art. / [EN] According to different European Standards and several studies, it is necessary to monitor and analyze the microclimatic conditions in museums and similar buildings, with the goal of preserving artworks. With the aim of offering tools to monitor the climatic conditions, a new statistical methodology for classifying time series of different climatic parameters, such as relative humidity and temperature, is pro- posed in this dissertation.The methodology consists of applying a classification method using variables that are computed from time series. The two first classification methods are ver- sions of known sparse methods which have not been applied to time dependent data. The third method is a new proposal that uses two known algorithms. These classification methods are based on different versions of sparse partial least squares discriminant analysis PLS (sPLS-DA, SPLSDA, and sPLS) and Linear Discriminant Analysis (LDA). The variables that are computed from time series, correspond to parameter estimates from functions, methods, or models commonly found in the area of time series, e.g., seasonal ARIMA model, seasonal ARIMA-TGARCH model, seasonal Holt-Winters method, spectral density function, autocorrelation function (ACF), partial autocorrelation function (PACF), moving range (MR), among others functions. Also, some variables employed in the field of astronomy (for classifying stars) were proposed.The methodology proposed consists of two parts. Firstly, different variables are computed applying the methods, models or functions mentioned above, to time series. Next, once the variables are calculated, they are used as input for a classification method like sPLS-DA, SPLSDA, or SPLS with LDA (new proposal). When there was no information about the clusters of the different time series, the first two components from principal component analysis (PCA) were used as input for k-means method for identifying possible clusters of time series. In addition, results from random forest algorithm were compared with results from sPLS-DA.This study analyzed three sets of time series of relative humidity or temperate, recorded in different buildings (Valencia's Cathedral, the archaeological site of L'Almoina, and the baroque church of Saint Thomas and Saint Philip Neri) in Valencia, Spain. The clusters of the time series were analyzed according to different zones or different levels of the sensor heights, for monitoring the climatic conditions in these buildings.Random forest algorithm and different versions of sparse PLS helped identifying the main variables for classifying the time series. When comparing the results from sPLS-DA and random forest, they were very similar for variables from seasonal Holt-Winters method and functions which were applied to the time series. The results from sPLS-DA were easier to interpret than results from random forest. When the different versions of sparse PLS used variables from seasonal Holt- Winters method as input, the clusters of the time series were identified effectively.The variables from seasonal Holt-Winters helped to obtain the best, or the second best results, according to the classification error rate. Among the different versions of sparse PLS proposed, sPLS with LDA helped to classify time series using a fewer number of variables with the lowest classification error rate.We propose using a version of sparse PLS (sPLS-DA, or sPLS with LDA) with variables computed from time series for classifying time series. For the different data sets studied, the methodology helped to produce parsimonious models with few variables, it achieved satisfactory discrimination of the different clusters of the time series which are easily interpreted. This methodology can be useful for characterizing and monitoring micro-climatic conditions in museums, or similar buildings, for preventing problems with artwork. / I gratefully acknowledge the financial support of Pontificia Universidad Javeriana Cali – PUJ and Instituto Colombiano de Crédito Educativo y Estudios Técnicos en el Exterior – ICETEX who awarded me the scholarships ’Convenio de Capacitación para Docentes O. J. 086/17’ and ’Programa Crédito Pasaporte a la Ciencia ID 3595089 foco-reto salud’ respectively. The scholarships were essential for obtaining the Ph.D. Also, I gratefully acknowledge the financial support of the European Union’s Horizon 2020 research and innovation programme under grant agreement No. 814624. / Ramírez Buelvas, SM. (2022). A Statistical Methodology for Classifying Time Series in the Context of Climatic Data [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181123
|
2 |
Quality by Design through multivariate latent structuresPalací López, Daniel Gonzalo 14 January 2019 (has links)
La presente tesis doctoral surge ante la necesidad creciente por parte de la mayoría de empresas, y en especial (pero no únicamente) aquellas dentro de los sectores farmacéu-tico, químico, alimentación y bioprocesos, de aumentar la flexibilidad en su rango ope-rativo para reducir los costes de fabricación, manteniendo o mejorando la calidad del producto final obtenido. Para ello, esta tesis se centra en la aplicación de los conceptos del Quality by Design para la aplicación y extensión de distintas metodologías ya exis-tentes y el desarrollo de nuevos algoritmos que permitan la implementación de herra-mientas adecuadas para el diseño de experimentos, el análisis multivariante de datos y la optimización de procesos en el ámbito del diseño de mezclas, pero sin limitarse ex-clusivamente a este tipo de problemas.
Parte I - Prefacio, donde se presenta un resumen del trabajo de investigación realiza-do y los objetivos principales que pretende abordar y su justificación, así como una introducción a los conceptos más importantes relativos a los temas tratados en partes posteriores de la tesis, tales como el diseño de experimentos o diversas herramientas estadísticas de análisis multivariado.
Parte II - Optimización en el diseño de mezclas, donde se lleva a cabo una recapitu-lación de las diversas herramientas existentes para el diseño de experimentos y análisis de datos por medios tradicionales relativos al diseño de mezclas, así como de algunas herramientas basadas en variables latentes, tales como la Regresión en Mínimos Cua-drados Parciales (PLS). En esta parte de la tesis también se propone una extensión del PLS basada en kernels para el análisis de datos de diseños de mezclas, y se hace una comparativa de las distintas metodologías presentadas. Finalmente, se incluye una breve presentación del programa MiDAs, desarrollado con la finalidad de ofrecer a sus usuarios la posibilidad de comparar de forma sencilla diversas metodologías para el diseño de experimentos y análisis de datos para problemas de mezclas.
Parte III - Espacio de diseño y optimización a través del espacio latente, donde se aborda el problema fundamental dentro de la filosofía del Quality by Design asociado a la definición del llamado 'espacio de diseño', que comprendería todo el conjunto de posibles combinaciones de condiciones de proceso, materias primas, etc. que garanti-zan la obtención de un producto con la calidad deseada. En esta parte también se trata el problema de la definición del problema de optimización como herramienta para la mejora de la calidad, pero también para la exploración y flexibilización de los procesos productivos, con el objeto de definir un procedimiento eficiente y robusto de optimiza-ción que se adapte a los diversos problemas que exigen recurrir a dicha optimización.
Parte IV - Epílogo, donde se presentan las conclusiones finales, la consecución de objetivos y posibles líneas futuras de investigación. En esta parte se incluyen además los anexos. / Aquesta tesi doctoral sorgeix davant la necessitat creixent per part de la majoria d'em-preses, i especialment (però no únicament) d'aquelles dins dels sectors farmacèutic, químic, alimentari i de bioprocessos, d'augmentar la flexibilitat en el seu rang operatiu per tal de reduir els costos de fabricació, mantenint o millorant la qualitat del producte final obtingut. La tesi se centra en l'aplicació dels conceptes del Quality by Design per a l'aplicació i extensió de diferents metodologies ja existents i el desenvolupament de nous algorismes que permeten la implementació d'eines adequades per al disseny d'ex-periments, l'anàlisi multivariada de dades i l'optimització de processos en l'àmbit del disseny de mescles, però sense limitar-se exclusivament a aquest tipus de problemes.
Part I- Prefaci, en què es presenta un resum del treball de recerca realitzat i els objec-tius principals que pretén abordar i la seua justificació, així com una introducció als conceptes més importants relatius als temes tractats en parts posteriors de la tesi, com ara el disseny d'experiments o diverses eines estadístiques d'anàlisi multivariada.
Part II - Optimització en el disseny de mescles, on es duu a terme una recapitulació de les diverses eines existents per al disseny d'experiments i anàlisi de dades per mit-jans tradicionals relatius al disseny de mescles, així com d'algunes eines basades en variables latents, tals com la Regressió en Mínims Quadrats Parcials (PLS). En aquesta part de la tesi també es proposa una extensió del PLS basada en kernels per a l'anàlisi de dades de dissenys de mescles, i es fa una comparativa de les diferents metodologies presentades. Finalment, s'inclou una breu presentació del programari MiDAs, que ofe-reix la possibilitat als usuaris de comparar de forma senzilla diverses metodologies per al disseny d'experiments i l'anàlisi de dades per a problemes de mescles.
Part III- Espai de disseny i optimització a través de l'espai latent, on s'aborda el problema fonamental dins de la filosofia del Quality by Design associat a la definició de l'anomenat 'espai de disseny', que comprendria tot el conjunt de possibles combina-cions de condicions de procés, matèries primeres, etc. que garanteixen l'obtenció d'un producte amb la qualitat desitjada. En aquesta part també es tracta el problema de la definició del problema d'optimització com a eina per a la millora de la qualitat, però també per a l'exploració i flexibilització dels processos productius, amb l'objecte de definir un procediment eficient i robust d'optimització que s'adapti als diversos pro-blemes que exigeixen recórrer a aquesta optimització.
Part IV- Epíleg, on es presenten les conclusions finals i la consecució d'objectius i es plantegen possibles línies futures de recerca arran dels resultats de la tesi. En aquesta part s'inclouen a més els annexos. / The present Ph.D. thesis is motivated by the growing need in most companies, and specially (but not solely) those in the pharmaceutical, chemical, food and bioprocess fields, to increase the flexibility in their operating conditions in order to reduce production costs while maintaining or even improving the quality of their products. To this end, this thesis focuses on the application of the concepts of the Quality by Design for the exploitation and development of already existing methodologies, and the development of new algorithms aimed at the proper implementation of tools for the design of experiments, multivariate data analysis and process optimization, specially (but not only) in the context of mixture design.
Part I - Preface, where a summary of the research work done, the main goals it aimed at and their justification, are presented. Some of the most relevant concepts related to the developed work in subsequent chapters are also introduced, such as those regarding design of experiments or latent variable-based multivariate data analysis techniques.
Part II - Mixture design optimization, in which a review of existing mixture design tools for the design of experiments and data analysis via traditional approaches, as well as some latent variable-based techniques, such as Partial Least Squares (PLS), is provided. A kernel-based extension of PLS for mixture design data analysis is also proposed, and the different available methods are compared to each other. Finally, a brief presentation of the software MiDAs is done. MiDAs has been developed in order to provide users with a tool to easily approach mixture design problems for the construction of Designs of Experiments and data analysis with different methods and compare them.
Part III - Design Space and optimization through the latent space, where one of the fundamental issues within the Quality by Design philosophy, the definition of the so-called 'design space' (i.e. the subspace comprised by all possible combinations of process operating conditions, raw materials, etc. that guarantee obtaining a product meeting a required quality standard), is addressed. The problem of properly defining the optimization problem is also tackled, not only as a tool for quality improvement but also when it is to be used for exploration of process flexibilisation purposes, in order to establish an efficient and robust optimization method in accordance with the nature of the different problems that may require such optimization to be resorted to.
Part IV - Epilogue, where final conclusions are drawn, future perspectives suggested, and annexes are included. / Palací López, DG. (2018). Quality by Design through multivariate latent structures [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/115489
|
3 |
Aplicación de métodos estadísticos multivariantes para la modelación y la monitorización de un reactor discontinuo secuencial para el tratamiento de aguas residualesAguado García, Daniel 06 May 2008 (has links)
Como consecuencia del incremento de los problemas de eutrofización en ríos, lagos y costas, se ha producido en las últimas décadas un notable aumento del interés por la eliminación de nutrientes en las aguas residuales previamente a su vertido en los sistemas naturales. Inicialmente, la eliminación de la materia orgánica y el nitrógeno presente en el agua residual se realizaba por medio de procesos biológicos mientras que el fósforo se eliminaba mediante procesos químicos. Sin embargo, las ventajas que presenta la eliminación biológica de fósforo han contribuido a que gradualmente este proceso haya sido implantado cada vez en más estaciones depuradoras de aguas residuales (EDARs).
El control de un proceso tan complejo como es el tratamiento de las aguas residuales con eliminación biológica de fósforo, exige conocer las variables de calidad que definen la eficacia del mismo (concentración de ortofosfatos, de amonio, demanda química de oxígeno, ...). Los métodos existentes para la medición de estas variables en tiempo real suponen fuertes inversiones y elevados costes de mantenimiento. Por otro lado, existen otras variables (variables de proceso: pH, conductividad, ...) que se pueden medir en tiempo real por medio de sensores robustos, de bajo coste y que requieren poco mantenimiento, pero que no suministran de forma directa información del funcionamiento del proceso. El elevado número de variables de proceso que actualmente se registran en tiempo real en EDARs modernas, hace necesaria la utilización de técnicas que permitan extraer la información contenida en la gran cantidad de datos registrados.
El objetivo principal de la presente tesis ha sido estudiar las posibilidades de utilización de las variables de proceso para obtener información acerca de la evolución de las variables de calidad, así como sobre la evolución del proceso a lo largo del tiempo, mediante la aplicación de métodos estadísticos multivariantes. De esta forma, se pretende detectar cualquier ano / Aguado García, D. (2005). Aplicación de métodos estadísticos multivariantes para la modelación y la monitorización de un reactor discontinuo secuencial para el tratamiento de aguas residuales [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1910
|
4 |
Causal latent space-based models for scientific learning in Industry 4.0Borràs Ferrís, Joan 30 October 2023 (has links)
[ES] La presente tesis doctoral está dedicada a estudiar, desarrollar y aplicar metodologías basadas en datos, fundamentadas en modelos estadísticos multivariantes de variables latentes, para abordar el paradigma del aprendizaje científico en el entorno de la Industria 4.0. Se pone especial énfasis en los modelos causales basados en variables latentes que utilizan tanto datos provenientes de un diseño de experimentos como, principalmente, datos provenientes del proceso de producción diario, es decir, datos históricos. La tesis está estructurada en cinco partes.
La primera parte discute el paradigma del aprendizaje científico en el entorno de la Industria 4.0. Se destacan los objetivos de la tesis. Además, se presenta una descripción exhaustiva de los modelos basados en variables latentes, sobre los cuales se fundamentan las metodologías novedosas propuestas en esta tesis.
En la segunda parte, se presentan las novedosas aportaciones metodológicas. En primer lugar, se muestra el potencial de PLS para analizar datos del DOE, con o sin datos faltantes. Posteriormente, el potencial de los modelos causales basados en variables latentes se centra en definir el espacio de diseño de la materia prima que proporciona garantía de calidad con un cierto nivel de confianza para los atributos críticos de calidad, junto con el desarrollo de un nuevo índice de capacidad multivariante basado en el espacio latente para clasificar y seleccionar proveedores para una materia prima particular utilizada en un proceso de fabricación.
La tercera parte pretende abordar aplicaciones novedosas mediante modelos causales basados en variables latentes utilizando datos históricos. En primer lugar, se trata de su aplicación en el ámbito sanitario: la Pandemia COVID-19. En este contexto, se utiliza el uso de modelos basados en variables latentes para desarrollar una alternativa a los ensayos clínicos controlados con placebo. Luego, se utilizan modelos basados en variables latentes para optimizar procesos en el marco de aplicaciones industriales.
La cuarta parte presenta una interfaz gráfica de usuario desarrollada en código Python que integra los métodos desarrollados con el objetivo de ser autoexplicativa y fácil de usar.
Finalmente, la última parte discute la relevancia de esta disertación, incluyendo propuestas que merecen mayor investigación. / [CA] Aquesta tesi doctoral està dedicada a estudiar, desenvolupar i aplicar metodologies basades en dades, fonamentades en models estadístics multivariants de variables latents, per abordar el paradigma de l'aprenentatge científic a l'entorn de la Indústria 4.0. Es posa un èmfasi especial en els models causals basats en variables latents que utilitzen tant; dades provinents d'un disseny d'experiments com, principalment, dades provinents del procés de producció diari, és a dir, dades històriques. La tesi està estructurada en cinc parts.
A la primera part es discuteix el paradigma de l'aprenentatge científic a l'entorn de la Indústria 4.0. Es destaquen els objectius de la tesi. A més, es presenta una descripció exhaustiva dels models basats en variables latents, sobre els quals es fonamenten les noves metodologies proposades en aquesta tesi.
A la segona part, es presenten les noves aportacions metodològiques. En primer lloc, es mostra el potencial de PLS per analitzar dades del DOE, amb dades faltants o sense aquestes. Posteriorment, el potencial dels models causals basats en variables latents se centra a definir l'espai de disseny de la matèria prima que proporciona garantia de qualitat amb un cert nivell de confiança per als atributs crítics de qualitat, juntament amb el desenvolupament d'un nou índex de capacitat multivariant basat en l'espai latent per a classificar i seleccionar proveïdors per a una primera matèria particular utilitzada en un procés de fabricació.
La tercera part pretén abordar aplicacions noves mitjançant models causals basats en variables latents utilitzant dades històrques. En primer lloc, es tracta de la seva aplicació a l'àmbit sanitari: la Pandèmia COVID-19. En aquest context, es fa servir l'ús de models basats en variables latents per desenvolupar una alternativa als assaigs clínics controlats amb placebo. Després s'utilitzen models basats en variables latents per optimitzar processos en el marc d'aplicacions industrials.
La quarta part presenta una interfície gràfica d'usuari desenvolupada en codi Python que integra els mètodes desenvolupats amb l'objectiu de ser autoexplicativa i fàcil d'usar.
Finalment, l'última part discuteix la rellevància d'aquesta dissertació, incloent-hi propostes que mereixen més investigació. / [EN] The present Ph.D. thesis is devoted to studying, developing, and applying data-driven methodologies, based on multivariate statistical models of latent variables, to address the scientific learning paradigm in the Industry 4.0 environment. Particular emphasis is placed on causal latent variable-based models using both data coming from a planned design of experiments and, mainly, data coming from the daily production process, namely happenstance data. The dissertation is structured in five parts.
The first part discusses the scientific learning paradigm in the Industry 4.0 environment. The objectives of the thesis are highlighted. In addition to that, a comprehensive description of latent variable-based models is presented, on which the novel methodologies proposed in this thesis are founded.
In the second part, the novel methodological contributions are presented. Firstly, the potential of PLS to analyze data from DOE, with or without missing runs is illustrated. Then, the potential of causal latent variable-based models is concentrated on defining the raw material design space providing assurance of quality with a certain confidence level for the critical to quality attributes, jointly with the development of a novel latent space-based multivariate capability index to rank and select suppliers for a particular raw material used in a manufacturing process.
The third part aims to address novel applications by means of causal latent variable-based models using happenstance data. First, it concerns a health application: the Pandemic COVID-19. In this context, the use of latent variable-based models is applied to develop an alternative to placebo-controlled clinical trials. Then, latent variable-based models are used to optimize processes within the framework of industrial applications.
The fourth part introduces a graphical user interface developed in Python code that integrates the developed methods with the aim of being self-explanatory and user-friendly.
Finally, the last part discusses the relevance of this dissertation, including proposals that deserve further research. / Borràs Ferrís, J. (2023). Causal latent space-based models for scientific learning in Industry 4.0 [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/198993
|
Page generated in 0.0489 seconds