Global ETD Search

21	Les généralisations des récursivités de Kalman et leurs applications / Kalman recursion generalizations and their applications Kadhim, Sadeq 20 April 2018 (has links) Nous considérions des modèles à espace d'état où les observations sont multicatégorielles et longitudinales, et l'état est décrit par des modèles du type CHARN. Nous estimons l'état au moyen des récursivités de Kalman généralisées. Celles-ci reposent sur l'application d'une variété de filtres particulaires et de l’algorithme EM. Nos résultats sont appliqués à l'estimation du trait latent en qualité de vie. Ce qui fournit une alternative et une généralisation des méthodes existantes dans la littérature. Ces résultats sont illustrés par des simulations numériques et une application aux données réelles sur la qualité de vie des femmes ayant subi une opération pour cause de cancer du sein / We consider state space models where the observations are multicategorical and longitudinal, and the state is described by CHARN models. We estimate the state by generalized Kalman recursions, which rely on a variety of particle filters and EM algorithm. Our results are applied to estimating the latent trait in quality of life, and this furnishes an alternative and a generalization of existing methods. These results are illustrated by numerical simulations and an application to real data in the quality of life of patients surged for breast cancer Récursivités de Kalman généralisées Variables latentes Filtres particulaires Algorithme EM Generalized Kalman recursions Generalized state space models Multicategorical longitudinal data Latent variables Particle filters EM algorithm 519.5 511.3 004.015 1
22	Essays on travel mode choice modeling : a discrete choice approach of the interactions between economic and behavioral theories / Essais sur la modélisation du choix modal : une approche par les choix discrets des interactions entre théories économiques et comportementales Bouscasse, Hélène 09 November 2017 (has links) Cette thèse a pour objectif d’incorporer des éléments de théories de psychologie et d’économie comportementale dans des modèles de choix discret afin d’améliorer la compréhension du choix modal réalisé à l’échelle régionale. Les estimations se basent sur une enquête de type choice experiment présentée en première partie. Une deuxième partie s’intéresse à l’incorporation de variables latentes pour expliquer le choix modal. Après une revue de littérature sur les modèles de choix hybrides, c’est-à-dire des modèles combinant modèle d’équations structurelles et modèle de choix discret, un tel modèle est estimé pour montrer comment l’hétérogénéité d’outputs économiques (ici, la valeur du temps) peut être expliquée à l’aide de variables latentes (ici, le confort perçu dans les transports en commun) et de variables observables (ici, la garantie d’une place assise). La simulation de scénarios montre cependant que le gain économique (diminution de la valeur du temps) est plus élevé lorsque les politiques agissent sur des dimensions palpables que sur des dimensions latentes. S’appuyant sur un modèle de médiation, l’estimation d’un modèle d’équations structurelles montre par ailleurs que l’effet de la conscience environnementale sur les habitudes de choix modal est partiellement médié par l’utilité indirecte retirée de l’usage des transports en commun. Une troisième partie s’intéresse à deux formalisations de l’utilité issues de l’économie comportementale : 1) l’utilité dépendante au rang en situation de risque et 2) l’utilité dépendante à la référence. Dans un premier temps, un modèle d’utilité dépendante au rang est inséré dans des modèles de choix discret et, en particulier, un modèle à classes latentes, afin d’analyser l’hétérogénéité intra- et inter-individuelle lorsque le temps de déplacement n’est pas fiable. La probabilité de survenue d’un retard est sur-évaluée pour les déplacements en train et sous-évaluée pour les déplacements en voiture, en particulier pour les automobilistes, les usagers du train prenant d’avantage en compte l’espérance du temps de déplacement. Dans les modèles prenant en compte l’aversion au risque, les fonctions d’utilité sont convexes, ce qui implique une décroissance,de la valeur du temps. Dans un deuxième temps, une nouvelle famille de modèles de choix discret généralisant le modèle logit multinomial, les modèles de référence, est estimée. Sur mes données, ces modèles permettent une meilleure sélection des variables explicatives que le logit multinomial et l’estimation d’outputs économiques plus robustes, notamment en cas de forte hétérogénéité inobservée. La traduction économique des modèles de référence montre que les meilleurs modèles empiriques sont également les plus compatibles avec le modèle de dépendance à la référence de Tversky et Kahneman. / The objective of this thesis is to incorporate aspects of psychology and behavioral economics theories in discrete choice models to promote a better understanding of mode choice at regional level. Part II examines the inclusion of latent variables to explain mode choice. A literature review of integrated choice and latent variable models – that is, models combining a structural equation model and a discrete choice model – is followed by the estimation of an integrated choice and latent variable model to show how the heterogeneity of economic outputs (here, value of time) can be explained with latent variables (here, perceived comfort in public transport) and observable variables (here, the guarantee of a seat). The simulation of scenarios shows, however, that the economic gain (decrease in value of time) is higher when policies address tangible factors than when they address latent factors. On the basis of a mediation model, the estimation of a structural equation model furthermore implies that the influence of environmental concern on mode choice habits is partially mediated by the indirect utility derived frompublic transport use. Part III examines two utility formulations taken from behavioral economics: 1) rankdependent utility to model risky choices, and 2) reference-dependent utility. Firstly, a rank-dependent utility model is included in discrete choice models and, in particular, a latent-class model, in order to analyze intra- and inter-individual heterogeneity when the travel time is subject to variability. The results show that the probability of a delay is over-estimated for train travel and under-estimated for car travel, especially for car users, as train users are more likely to take into account the expected travel time. In the models that account for risk aversion, the utility functions are convex, which implies a decrease in value of time. Secondly, a new family of discrete choice models generalizing the multinomial logit model, the reference models, is estimated. On my data, these models allow for a better selection of explanatory variables than the multinomial logit model and a more robust estimation of economic outputs, particularly in cases of high unobserved heterogeneity. The economic formulation of reference models shows thatthe best empirical models are also more compatible with Tversky et Kahneman’s reference-dependent model. Choix modal Variables latentes Modèles de choix discrets Modèles de choix hybrides Valeur du temps Comportement dans le risque Modèles de référence Mode choice Latent variables Discrete choice models Integrated choice latent variable models Value of time Risky choices Reference models 330
23	Inference and applications for topic models / Inférence et applications pour les modèles thématiques Dupuy, Christophe 30 June 2017 (has links) La plupart des systèmes de recommandation actuels se base sur des évaluations sous forme de notes (i.e., chiffre entre 0 et 5) pour conseiller un contenu (film, restaurant...) à un utilisateur. Ce dernier a souvent la possibilité de commenter ce contenu sous forme de texte en plus de l'évaluer. Il est difficile d'extraire de l'information d'un texte brut tandis qu'une simple note contient peu d'information sur le contenu et l'utilisateur. Dans cette thèse, nous tentons de suggérer à l'utilisateur un texte lisible personnalisé pour l'aider à se faire rapidement une opinion à propos d'un contenu. Plus spécifiquement, nous construisons d'abord un modèle thématique prédisant une description de film personnalisée à partir de commentaires textuels. Notre modèle sépare les thèmes qualitatifs (i.e., véhiculant une opinion) des thèmes descriptifs en combinant des commentaires textuels et des notes sous forme de nombres dans un modèle probabiliste joint. Nous évaluons notre modèle sur une base de données IMDB et illustrons ses performances à travers la comparaison de thèmes. Nous étudions ensuite l'inférence de paramètres dans des modèles à variables latentes à grande échelle, incluant la plupart des modèles thématiques. Nous proposons un traitement unifié de l'inférence en ligne pour les modèles à variables latentes à partir de familles exponentielles non-canoniques et faisons explicitement apparaître les liens existants entre plusieurs méthodes fréquentistes et Bayesiennes proposées auparavant. Nous proposons aussi une nouvelle méthode d'inférence pour l'estimation fréquentiste des paramètres qui adapte les méthodes MCMC à l'inférence en ligne des modèles à variables latentes en utilisant proprement un échantillonnage de Gibbs local. Pour le modèle thématique d'allocation de Dirichlet latente, nous fournissons une vaste série d'expériences et de comparaisons avec des travaux existants dans laquelle notre nouvelle approche est plus performante que les méthodes proposées auparavant. Enfin, nous proposons une nouvelle classe de processus ponctuels déterminantaux (PPD) qui peut être manipulée pour l'inférence et l'apprentissage de paramètres en un temps potentiellement sous-linéaire en le nombre d'objets. Cette classe, basée sur une factorisation spécifique de faible rang du noyau marginal, est particulièrement adaptée à une sous-classe de PPD continus et de PPD définis sur un nombre exponentiel d'objets. Nous appliquons cette classe à la modélisation de documents textuels comme échantillons d'un PPD sur les phrases et proposons une formulation du maximum de vraisemblance conditionnel pour modéliser les proportions de thèmes, ce qui est rendu possible sans aucune approximation avec notre classe de PPD. Nous présentons une application à la synthèse de documents avec un PPD sur 2 à la puissance 500 objets, où les résumés sont composés de phrases lisibles. / Most of current recommendation systems are based on ratings (i.e. numbers between 0 and 5) and try to suggest a content (movie, restaurant...) to a user. These systems usually allow users to provide a text review for this content in addition to ratings. It is hard to extract useful information from raw text while a rating does not contain much information on the content and the user. In this thesis, we tackle the problem of suggesting personalized readable text to users to help them make a quick decision about a content. More specifically, we first build a topic model that predicts personalized movie description from text reviews. Our model extracts distinct qualitative (i.e., which convey opinion) and descriptive topics by combining text reviews and movie ratings in a joint probabilistic model. We evaluate our model on an IMDB dataset and illustrate its performance through comparison of topics. We then study parameter inference in large-scale latent variable models, that include most topic models. We propose a unified treatment of online inference for latent variable models from a non-canonical exponential family, and draw explicit links between several previously proposed frequentist or Bayesian methods. We also propose a novel inference method for the frequentist estimation of parameters, that adapts MCMC methods to online inference of latent variable models with the proper use of local Gibbs sampling.~For the specific latent Dirichlet allocation topic model, we provide an extensive set of experiments and comparisons with existing work, where our new approach outperforms all previously proposed methods. Finally, we propose a new class of determinantal point processes (DPPs) which can be manipulated for inference and parameter learning in potentially sublinear time in the number of items. This class, based on a specific low-rank factorization of the marginal kernel, is particularly suited to a subclass of continuous DPPs and DPPs defined on exponentially many items. We apply this new class to modelling text documents as sampling a DPP of sentences, and propose a conditional maximum likelihood formulation to model topic proportions, which is made possible with no approximation for our class of DPPs. We present an application to document summarization with a DPP on 2 to the power 500 items, where the summaries are composed of readable sentences. Modèles thèmatiques Apprentissage en ligne Modèles à variables latentes Apprentissage non supervisé Processus ponctuels determinantaux Allocation de Dirichlet latente Topic models Online learning Latent variable models Unsupervised learning Determinantal point processes Latent Dirichlet allocation 006.3
24	Towards an extension of causal discovery with generative flow networks to latent variables models Manta, Dragos Cristian 12 1900 (has links) Le raisonnement causal est au centre des facultés intellectuelles humaines qui nous permettent de transférer nos connaissances acquises dans des situations très différentes de l'expérience vécue à partir de peu de nouvelles observations. En fait, notre science en entier se base sur l'hypothèse qu'on puisse expliquer tous les phénomènes de l'univers à partir d'un nombre relativement petit de principes simples et constants à travers le temps qui donnent naissance au monde complexe qui nous entoure grâce au très grand nombre de conditions expérimentales possibles, qui correspondent à des interventions dans un modèle causal graphique. La découverte algorithmique de ces mécanismes semble donc être un pilier important, non seulement afin de produire des agents artificiels dotés de capacités cognitives humaines, mais également en vue d'automatiser la découverte scientifique. Nous nous penchons sur une variante du problème de la découverte causale dans laquelle les données observées ne correspondent pas directement aux variables d'intérêt, que l'on considère latentes. Nous utilisons les réseaux de flot génératifs pour apprendre une distribution bayésienne a posteriori définie sur la structure des réseaux bayésiens latents et sur les valeurs des variables latentes. / Causal reasoning is at the center of the human intellectual abilities that allow us to transfer our acquired knowledge in situations that are very different from our past experience from few new observations. In fact, our whole science is based on the assumption that we can explain all the phenomena of the universe from a relatively small set of simple principles that are constant through time and that give rise to the complex world surrounding us due to the very large number of possible experimental conditions that correspond to interventions in a causal graphical model. The algorithmic discovery of these mechanisms thus seems to be an important pillar, not only to create artificial agents endowed with human cognitive abilities, but also to automate scientific discovery. We are looking into a variant of the causal discovery problem in which the observed data does not directly correspond to the variables of interest, which we consider to be latent. We use Generative Flow Networks to learn a Bayesian posterior distribution defined over latent Bayesian networks and over the values of the latent variables. Causalité Réseaux de flot génératifs Réseaux bayésiens Modèles probabilistes graphiques Variables latentes Découverte scientifique Apprentissage profond Causality Generative flow networks Bayesian networks Probabilistic graphical models Latent variables Scientific discovery Deep learning
25	Approche bayésienne de l'évaluation de l'incertitude de mesure : application aux comparaisons interlaboratoires Demeyer, Séverine 04 March 2011 (has links) La modélisation par équations structurelles est très répandue dans des domaines très variés et nous l'appliquons pour la première fois en métrologie dans le traitement de données de comparaisons interlaboratoires. Les modèles à équations structurelles à variables latentes sont des modèles multivariés utilisés pour modéliser des relations de causalité entre des variables observées (les données). Le modèle s'applique dans le cas où les données peuvent être regroupées dans des blocs disjoints où chaque bloc définit un concept modélisé par une variable latente. La structure de corrélation des variables observées est ainsi résumée dans la structure de corrélation des variables latentes. Nous proposons une approche bayésienne des modèles à équations structurelles centrée sur l'analyse de la matrice de corrélation des variables latentes. Nous appliquons une expansion paramétrique à la matrice de corrélation des variables latentes afin de surmonter l'indétermination de l'échelle des variables latentes et d'améliorer la convergence de l'algorithme de Gibbs utilisé. La puissance de l'approche structurelle nous permet de proposer une modélisation riche et flexible des biais de mesure qui vient enrichir le calcul de la valeur de consensus et de son incertitude associée dans un cadre entièrement bayésien. Sous certaines hypothèses l'approche permet de manière innovante de calculer les contributions des variables de biais au biais des laboratoires. Plus généralement nous proposons un cadre bayésien pour l'amélioration de la qualité des mesures. Nous illustrons et montrons l'intérêt d'une modélisation structurelle des biais de mesure sur des comparaisons interlaboratoires en environnement. / Structural equation modelling is a widespread approach in a variety of domains and is first applied here to interlaboratory comparisons in metrology. Structural Equation Models with latent variables (SEM) are multivariate models used to model causality relationships in observed variables (the data). It is assumed that data can be grouped into separate blocks each describing a latent concept modelled by a latent variable. The correlation structure of the observed variables is transferred into the correlation structure of the latent variables. A Bayesian approach of SEM is proposed based on the analysis of the correlation matrix of latent variables using parameter expansion to overcome identifiability issues and improving the convergence of the Gibbs sampler. SEM is used as a powerful and flexible tool to model measurement bias with the aim of improving the reliability of the consensus value and its associated uncertainty in a fully Bayesian framework. The approach also allows to compute the contributions of the observed variables to the bias of the laboratories, under additional hypotheses. More generally a global Bayesian framework is proposed to improve the quality of measurements. The approach is illustrated on the structural equation modelling of measurement bias in interlaboratory comparisons in environment. Modèles à équations structurelles Variables latentes Identifiabilité Analyse bayésienne Augmentation des données Expansion paramétrique Algorithme de Gibbs Métrologie Comparaisons interlaboratoires Calcul d'incertitude Connaissances d'experts Structural Equation Modelling Latent variables Identifiability Bayesian analysis Data augmentation Parameter expansion Gibbs algorithm Metrology Interlaboratory comparisons Uncertainty analysis Expert knowledge
26	Modèles de Markov à variables latentes : matrice de transition non-homogène et reformulation hiérarchique Lemyre, Gabriel 01 1900 (has links) Ce mémoire s’intéresse aux modèles de Markov à variables latentes, une famille de modèles dans laquelle une chaîne de Markov latente régit le comportement d’un processus stochastique observable à travers duquel transparaît une version bruitée de la chaîne cachée. Pouvant être vus comme une généralisation naturelle des modèles de mélange, ces processus stochastiques bivariés ont entre autres démontré leur faculté à capter les dynamiques variables de maintes séries chronologiques et, plus spécifiquement en finance, à reproduire la plupart des faits stylisés des rendements financiers. Nous nous intéressons en particulier aux chaînes de Markov à temps discret et à espace d’états fini, avec l’objectif d’étudier l’apport de leurs reformulations hiérarchiques et de la relaxation de l’hypothèse d’homogénéité de la matrice de transition à la qualité de l’ajustement aux données et des prévisions, ainsi qu’à la reproduction des faits stylisés. Nous présentons à cet effet deux structures hiérarchiques, la première permettant une nouvelle interprétation des relations entre les états de la chaîne, et la seconde permettant de surcroît une plus grande parcimonie dans la paramétrisation de la matrice de transition. Nous nous intéressons de plus à trois extensions non-homogènes, dont deux dépendent de variables observables et une dépend d’une autre variable latente. Nous analysons pour ces modèles la qualité de l’ajustement aux données et des prévisions sur la série des log-rendements du S&P 500 et du taux de change Canada-États-Unis (CADUSD). Nous illustrons de plus la capacité des modèles à reproduire les faits stylisés, et présentons une interprétation des paramètres estimés pour les modèles hiérarchiques et non-homogènes. Les résultats obtenus semblent en général confirmer l’apport potentiel de structures hiérarchiques et des modèles non-homogènes. Ces résultats semblent en particulier suggérer que l’incorporation de dynamiques non-homogènes aux modèles hiérarchiques permette de reproduire plus fidèlement les faits stylisés—même la lente décroissance de l’autocorrélation des rendements centrés en valeur absolue et au carré—et d’améliorer la qualité des prévisions obtenues, tout en conservant la possibilité d’interpréter les paramètres estimés. / This master’s thesis is centered on the Hidden Markov Models, a family of models in which an unobserved Markov chain dictactes the behaviour of an observable stochastic process through which a noisy version of the latent chain is observed. These bivariate stochastic processes that can be seen as a natural generalization of mixture models have shown their ability to capture the varying dynamics of many time series and, more specifically in finance, to reproduce the stylized facts of financial returns. In particular, we are interested in discrete-time Markov chains with finite state spaces, with the objective of studying the contribution of their hierarchical formulations and the relaxation of the homogeneity hypothesis for the transition matrix to the quality of the fit and predictions, as well as the capacity to reproduce the stylized facts. We therefore present two hierarchical structures, the first allowing for new interpretations of the relationships between states of the chain, and the second allowing for a more parsimonious parameterization of the transition matrix. We also present three non-homogeneous models, two of which have transition probabilities dependent on observed explanatory variables, and the third in which the probabilities depend on another latent variable. We first analyze the goodness of fit and the predictive power of our models on the series of log returns of the S&P 500 and the exchange rate between canadian and american currencies (CADUSD). We also illustrate their capacity to reproduce the stylized facts, and present interpretations of the estimated parameters for the hierarchical and non-homogeneous models. In general, our results seem to confirm the contribution of hierarchical and non-homogeneous models to these measures of performance. In particular, these results seem to suggest that the incorporation of non-homogeneous dynamics to a hierarchical structure may allow for a more faithful reproduction of the stylized facts—even the slow decay of the autocorrelation functions of squared and absolute returns—and better predictive power, while still allowing for the interpretation of the estimated parameters. Modèle de Markov à variables latentes Structure hiérarchique Homogénéité Variables explicatives Dépendance à la durée Interprétabilité Hidden Markov Model Stylized facts of financial returns Hierarchical structure Homogeneity Explanatory variables Generalized autoregressive score model Duration dependence Interpretability
27	Approche bayésienne de l'évaluation de l'incertitude de mesure : application aux comparaisons interlaboratoires / Bayesian approach for the evaluation of measurement uncertainty applied to interlaboratory comparisons Demeyer, Séverine 04 March 2011 (has links) La modélisation par équations structurelles est très répandue dans des domaines très variés et nous l'appliquons pour la première fois en métrologie dans le traitement de données de comparaisons interlaboratoires. Les modèles à équations structurelles à variables latentes sont des modèles multivariés utilisés pour modéliser des relations de causalité entre des variables observées (les données). Le modèle s'applique dans le cas où les données peuvent être regroupées dans des blocs disjoints où chaque bloc définit un concept modélisé par une variable latente. La structure de corrélation des variables observées est ainsi résumée dans la structure de corrélation des variables latentes. Nous proposons une approche bayésienne des modèles à équations structurelles centrée sur l'analyse de la matrice de corrélation des variables latentes. Nous appliquons une expansion paramétrique à la matrice de corrélation des variables latentes afin de surmonter l'indétermination de l'échelle des variables latentes et d'améliorer la convergence de l'algorithme de Gibbs utilisé. La puissance de l'approche structurelle nous permet de proposer une modélisation riche et flexible des biais de mesure qui vient enrichir le calcul de la valeur de consensus et de son incertitude associée dans un cadre entièrement bayésien. Sous certaines hypothèses l'approche permet de manière innovante de calculer les contributions des variables de biais au biais des laboratoires. Plus généralement nous proposons un cadre bayésien pour l'amélioration de la qualité des mesures. Nous illustrons et montrons l'intérêt d'une modélisation structurelle des biais de mesure sur des comparaisons interlaboratoires en environnement. / Structural equation modelling is a widespread approach in a variety of domains and is first applied here to interlaboratory comparisons in metrology. Structural Equation Models with latent variables (SEM) are multivariate models used to model causality relationships in observed variables (the data). It is assumed that data can be grouped into separate blocks each describing a latent concept modelled by a latent variable. The correlation structure of the observed variables is transferred into the correlation structure of the latent variables. A Bayesian approach of SEM is proposed based on the analysis of the correlation matrix of latent variables using parameter expansion to overcome identifiability issues and improving the convergence of the Gibbs sampler. SEM is used as a powerful and flexible tool to model measurement bias with the aim of improving the reliability of the consensus value and its associated uncertainty in a fully Bayesian framework. The approach also allows to compute the contributions of the observed variables to the bias of the laboratories, under additional hypotheses. More generally a global Bayesian framework is proposed to improve the quality of measurements. The approach is illustrated on the structural equation modelling of measurement bias in interlaboratory comparisons in environment. Modèles à équations structurelles Variables latentes Identifiabilité Analyse bayésienne Augmentation des données Expansion paramétrique Algorithme de Gibbs Métrologie Comparaisons interlaboratoires Calcul d'incertitude Connaissances d'experts Structural Equation Modelling Latent variables Identifiability Bayesian analysis Data augmentation Parameter expansion Gibbs algorithm Metrology Interlaboratory comparisons Uncertainty analysis Expert knowledge 510
28	Causal latent space-based models for scientific learning in Industry 4.0 Borràs Ferrís, Joan 30 October 2023 (has links) [ES] La presente tesis doctoral está dedicada a estudiar, desarrollar y aplicar metodologías basadas en datos, fundamentadas en modelos estadísticos multivariantes de variables latentes, para abordar el paradigma del aprendizaje científico en el entorno de la Industria 4.0. Se pone especial énfasis en los modelos causales basados en variables latentes que utilizan tanto datos provenientes de un diseño de experimentos como, principalmente, datos provenientes del proceso de producción diario, es decir, datos históricos. La tesis está estructurada en cinco partes. La primera parte discute el paradigma del aprendizaje científico en el entorno de la Industria 4.0. Se destacan los objetivos de la tesis. Además, se presenta una descripción exhaustiva de los modelos basados en variables latentes, sobre los cuales se fundamentan las metodologías novedosas propuestas en esta tesis. En la segunda parte, se presentan las novedosas aportaciones metodológicas. En primer lugar, se muestra el potencial de PLS para analizar datos del DOE, con o sin datos faltantes. Posteriormente, el potencial de los modelos causales basados en variables latentes se centra en definir el espacio de diseño de la materia prima que proporciona garantía de calidad con un cierto nivel de confianza para los atributos críticos de calidad, junto con el desarrollo de un nuevo índice de capacidad multivariante basado en el espacio latente para clasificar y seleccionar proveedores para una materia prima particular utilizada en un proceso de fabricación. La tercera parte pretende abordar aplicaciones novedosas mediante modelos causales basados en variables latentes utilizando datos históricos. En primer lugar, se trata de su aplicación en el ámbito sanitario: la Pandemia COVID-19. En este contexto, se utiliza el uso de modelos basados en variables latentes para desarrollar una alternativa a los ensayos clínicos controlados con placebo. Luego, se utilizan modelos basados en variables latentes para optimizar procesos en el marco de aplicaciones industriales. La cuarta parte presenta una interfaz gráfica de usuario desarrollada en código Python que integra los métodos desarrollados con el objetivo de ser autoexplicativa y fácil de usar. Finalmente, la última parte discute la relevancia de esta disertación, incluyendo propuestas que merecen mayor investigación. / [CA] Aquesta tesi doctoral està dedicada a estudiar, desenvolupar i aplicar metodologies basades en dades, fonamentades en models estadístics multivariants de variables latents, per abordar el paradigma de l'aprenentatge científic a l'entorn de la Indústria 4.0. Es posa un èmfasi especial en els models causals basats en variables latents que utilitzen tant; dades provinents d'un disseny d'experiments com, principalment, dades provinents del procés de producció diari, és a dir, dades històriques. La tesi està estructurada en cinc parts. A la primera part es discuteix el paradigma de l'aprenentatge científic a l'entorn de la Indústria 4.0. Es destaquen els objectius de la tesi. A més, es presenta una descripció exhaustiva dels models basats en variables latents, sobre els quals es fonamenten les noves metodologies proposades en aquesta tesi. A la segona part, es presenten les noves aportacions metodològiques. En primer lloc, es mostra el potencial de PLS per analitzar dades del DOE, amb dades faltants o sense aquestes. Posteriorment, el potencial dels models causals basats en variables latents se centra a definir l'espai de disseny de la matèria prima que proporciona garantia de qualitat amb un cert nivell de confiança per als atributs crítics de qualitat, juntament amb el desenvolupament d'un nou índex de capacitat multivariant basat en l'espai latent per a classificar i seleccionar proveïdors per a una primera matèria particular utilitzada en un procés de fabricació. La tercera part pretén abordar aplicacions noves mitjançant models causals basats en variables latents utilitzant dades històrques. En primer lloc, es tracta de la seva aplicació a l'àmbit sanitari: la Pandèmia COVID-19. En aquest context, es fa servir l'ús de models basats en variables latents per desenvolupar una alternativa als assaigs clínics controlats amb placebo. Després s'utilitzen models basats en variables latents per optimitzar processos en el marc d'aplicacions industrials. La quarta part presenta una interfície gràfica d'usuari desenvolupada en codi Python que integra els mètodes desenvolupats amb l'objectiu de ser autoexplicativa i fàcil d'usar. Finalment, l'última part discuteix la rellevància d'aquesta dissertació, incloent-hi propostes que mereixen més investigació. / [EN] The present Ph.D. thesis is devoted to studying, developing, and applying data-driven methodologies, based on multivariate statistical models of latent variables, to address the scientific learning paradigm in the Industry 4.0 environment. Particular emphasis is placed on causal latent variable-based models using both data coming from a planned design of experiments and, mainly, data coming from the daily production process, namely happenstance data. The dissertation is structured in five parts. The first part discusses the scientific learning paradigm in the Industry 4.0 environment. The objectives of the thesis are highlighted. In addition to that, a comprehensive description of latent variable-based models is presented, on which the novel methodologies proposed in this thesis are founded. In the second part, the novel methodological contributions are presented. Firstly, the potential of PLS to analyze data from DOE, with or without missing runs is illustrated. Then, the potential of causal latent variable-based models is concentrated on defining the raw material design space providing assurance of quality with a certain confidence level for the critical to quality attributes, jointly with the development of a novel latent space-based multivariate capability index to rank and select suppliers for a particular raw material used in a manufacturing process. The third part aims to address novel applications by means of causal latent variable-based models using happenstance data. First, it concerns a health application: the Pandemic COVID-19. In this context, the use of latent variable-based models is applied to develop an alternative to placebo-controlled clinical trials. Then, latent variable-based models are used to optimize processes within the framework of industrial applications. The fourth part introduces a graphical user interface developed in Python code that integrates the developed methods with the aim of being self-explanatory and user-friendly. Finally, the last part discusses the relevance of this dissertation, including proposals that deserve further research. / Borràs Ferrís, J. (2023). Causal latent space-based models for scientific learning in Industry 4.0 [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/198993 Modelos de variables latentes Análisis multivariante Mínimos Cuadrados Parciales (PLS) Espacio de diseño Índice de capacidad multivariante Industria 4.0 Multivariate Analysis Latent Variable-based models Partial Least Squares (PLS) Design Space Multivariate Raw Material Specifications Multivariate Capability Index Industry 4.0 ESTADISTICA E INVESTIGACION OPERATIVA
29	Statistical Machine Learning in Biomedical Engineering González Cebrián, Alba 15 April 2024 (has links) [ES] Esta tesis, desarrollada bajo una beca de formación de personal investigador de la Universitat Politècnica de València, tiene como objetivo proponer y aplicar metodologías de Statistical Machine Learning en contextos de Ingeniería Biomédica. Este concepto pretende aunar el uso de modelos de aprendizaje automático junto con la búsqueda de comprensión e interpretabilidad clásica del razonamiento estadístico, dando lugar a soluciones tecnológicas de problemas biomédicos que no pasen únicamente por el objetivo de optimizar el desempeño predictivo de los modelos. Para ello, se han dibujado dos objetivos principales que vertebran además el documento: proponer metodologías novedosas dentro del paraguas del Statistical Machine Learning, y aplicar soluciones a problemas biomédicos reales manteniendo esta filosofía en mente. Estos objetivos se han materializado en contribuciones metodológicas para la simulación de valores atípicos y la imputación de datos faltantes en presencia de datos atípicos, y en contribuciones aplicadas a casos reales para la mejora de procesos de atención médica, la mejora en el diagnóstico y pronóstico de enfermedades, y la estandarización de procedimientos de medición en entornos biotecnológicos. Dichas contribuciones se han artículado en capítulos correspondientes a las dos partes principales ya mencionadas. Finalmente, las conclusiones y líneas futuras cierran el documento, recalcando los mensajes principales de las contribuciones de la tesis doctoral en general, y sentando además las bases para líneas futuras que se han dibujado a consecuencia del trabajo realizado a lo largo del doctorado. / [CA] Aquesta tesi, desenvolupada sota una beca de formació de personal investigador de la Universitat Politècnica de València, té com a objectiu proposar i aplicar metodologies de Statistical Machine Learning en contextos d'Enginyeria Biomèdica. Aquest concepte pretén unir l'ús de models d'aprenentatge automàtic juntament amb la cerca de comprensió i interpretació clàssica del raonament estadístic, donant lloc a solucions tecnològiques de problemes biomèdics que no passen únicament per l'objectiu d'optimitzar el rendiment predictiu dels models. Per a això, s'han dibuixat dos objectius principals que vertebren a més el document: proposar metodologies noves dins del paraigua del Statistical Machine Learning, i aplicar solucions a problemes biomèdics reals mantenint aquesta filosofia en ment. Aquests objectius s'han materialitzat en contribucions metodològiques per a la simulació de valors atípics i la imputació de dades mancants en presència de valors atípics, i en contribucions aplicades a casos reals per a la millora de processos d'atenció mèdica, la millora en el diagnòstic i pronòstic de malalties, i l'estandardització de procediments de mesurament en entorns biotecnològics. Aquestes contribucions s'han articulat en capítols corresponents a les dues parts principals ja esmentades. Finalment, les conclusions i línies futures tanquen el document, recalant els missatges principals de les contribucions, de la tesi doctoral en general, i assentant a més les bases per a línies futures que s'han dibuixat com a consequència del treball realitzat al llarg del doctorat. / [EN] This thesis, developed under a research personnel formation grant from the Universitat Politècnica de València, aims to propose and apply methodologies of Statistical Machine Learning in Biomedical Engineering contexts. This concept seeks to combine machine learning models with the classic understanding and interpretability of statistical reasoning, resulting in technological solutions for biomedical problems that go beyond solely optimizing the predictive performance of models. To achieve this, two main objectives have been outlined, which also structure the document: proposing novel methodologies within the umbrella of Statistical Machine Learning and applying solutions to real biomedical problems while keeping this philosophy in mind. These objectives have materialized into methodological contributions for simulating outliers and imputing missing data in the presence of outliers and applied contributions to real cases for improving healthcare processes, enhancing disease diagnosis and prognosis, and standardizing measurement procedures in biotechnological environments. These contributions are articulated in chapters corresponding to the aforementioned two main parts. Finally, the conclusions and future lines of research conclude the document, reiterating the main messages of the contributions and the overall doctoral thesis and laying the groundwork for future lines of inquiry stemming from the work conducted throughout the doctorate. / González Cebrián, A. (2024). Statistical Machine Learning in Biomedical Engineering [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203529 Biomedical engineering Statistical Machine Learning Latent Variable-based Models Multivariate Analysis Principal Component Analysis (PCA) Data Science Outliers Missing Data Medicine 4.0 Modelos de Variables Latentes Medicina 4.0 Ciencia de datos Datos anómalos Datos faltantes Análisis multivariante Ingeniería biomédica ESTADISTICA E INVESTIGACION OPERATIVA

Search results