Global ETD Search

1	Weakly Supervised Learning for Structured Output Prediction Kumar, M. Pawan 12 December 2013 (has links) (PDF) We consider the problem of learning the parameters of a structured output prediction model, that is, learning to predict elements of a complex interdependent output space that correspond to a given input. Unlike many of the existing approaches, we focus on the weakly supervised setting, where most (or all) of the training samples have only been partially annotated. Given such a weakly supervised dataset, our goal is to estimate accurate parameters of the model by minimizing the regularized empirical risk, where the risk is measured by a user-specified loss function. This task has previously been addressed by the well-known latent support vector machine (latent SVM) framework. We argue that, while latent SVM offers a computational efficient solution to loss-based weakly supervised learning, it suffers from the following three drawbacks: (i) the optimization problem corresponding to latent SVM is a difference-of-convex program, which is non-convex, and hence susceptible to bad local minimum solutions; (ii) the prediction rule of latent SVM only relies on the most likely value of the latent variables, and not the uncertainty in the latent variable values; and (iii) the loss function used to measure the risk is restricted to be independent of true (unknown) value of the latent variables. We address the the aforementioned drawbacks using three novel contributions. First, inspired by human learning, we design an automatic self-paced learning algorithm for latent SVM, which builds on the intuition that the learner should be presented in the training samples in a meaningful order that facilitates learning: starting frome easy samples and gradually moving to harder samples. Our algorithm simultaneously selects the easy samples and updates the parameters at each iteration by solving a biconvex optimization problem. Second, we propose a new family of LVMs called max-margin min-entropy (M3E) models, which includes latent SVM as a special case. Given an input, an M3E model predicts the output with the smallest corresponding Renyi entropy of generalized distribution, which relies not only on the probability of the output but also the uncertainty of the latent variable values. Third, we propose a novel learning framework for learning with general loss functions that may depend on the latent variables. Specifically, our framework simultaneously estimates two distributions: (i) a conditional distribution to model the uncertainty of the latent variables for a given input-output pair; and (ii) a delta distribution to predict the output and the latent variables for a given input. During learning, we encourage agreement between the two distributions by minimizing a loss-based dissimilarity coefficient. We demonstrate the efficacy of our contributions on standard machine learning applications using publicly available datasets. structured output prediction weakly supervised learning latent svm max-margin min-entropy dissimilarity coefficient
2	Simulation numérique de parcs d'hydroliennes à axe vertical carénées par une approche de type cylindre actif / Numerical simulation of arrays of ducted vertical-axis water turbines using an active cylinder approach Dominguez Bermudez, Favio Enrique 13 July 2016 (has links) La récupération, grâce aux hydroliennes, de l’énergie cinétique de courants marins et fluviaux constitue une source d’énergie renouvelable considérable et prédictible. La simulation fine, par une description statistique instationnaire de type URANS, de l’écoulement autour d’une hydrolienne isolée à axe vertical, bi-rotor et munie d’un carénage (hydrolienne de type HARVEST) donne accès à une estimation précise de la puissance produite. Cependant, le coût élevé de cette approche URANS la rend inadaptée à la simulation d’un parc de machines. Une analyse de la littérature conduit à retenir un modèle basse-fidélité de type Blade Element Momentum (BEM) pour décrire à moindre coût l’effet du rotor de la turbine sur l’écoulement, dans le contexte d’une description 2D (coupe horizontale). La performance de l’hydrolienne est alors prédite par un calcul RANS incluant des termes sources distribués dans un anneau rotor virtuel et conservant le maillage des parties fixes (carénage). Ces termes sources sont construits grâce à une procédure originale exploitant les conditions locales de l’écoulement en amont des cellules du rotor virtuel et le débit de l’écoulement traversant l’hydrolienne. Les coefficients hydrodynamiques utilisés pour le calcul des termes sources BEM-RANS sont construits une fois pour toutes en exploitant une série de simulations URANS préliminaires ; ils intègrent les effets du carénage et le fonctionnement de chaque rotor à une vitesse de rotation optimale (maximisant la puissance produite) grâce au système de régulation de l’hydrolienne. Le modèle BEM-RANS développé est validé par comparaison avec des simulations URANS de référence : il fournit une estimation fiable de la puissance produite (erreur de quelques % par rapport à l’approche URANS) pour un coût réduit de plusieurs ordres de grandeur. Ce modèle est appliqué à l'analyse de la puissance produite par une rangée d’hydroliennes HARVEST dans un canal pour différents facteurs de blocage et d’espacement latéral ainsi qu’à une ferme marine composée de trois hydroliennes. / The capture, thanks to hydrokinetic turbines, of the kinetic energy generated by sea and river currents provides a significant and predictable source of renewable energy. The detailed simulation, using an unsteady statistical description of URANS type, of the flow around an isolated water turbine of HARVEST type (cross flow vertical axis ducted water turbine) provides an accurate estimate of the power output. However, the cost of the URANS approach is much too expensive to be applied to a farm of several turbines. A review of the literature leads to select a low-fidelity model of Blade Element Momentum (BEM) type to describe at a reduced cost the rotor effect on the flow, in a 2D context (horizontal cross-section). The turbine performance is then predicted using a steady RANS simulation including source terms distributed within a virtual rotor ring and preserving the mesh of the turbine fixed parts (duct). These source terms are derived using an original procedure which exploits both the local flow conditions upstream of the virtual rotor cells and the flow rate through the turbine. The hydrodynamic coefficients used to compute the BEM-RANS source terms are built once for all from a series of preliminary URANS simulations; they include the effects of the duct on the flow and the rotor operating at optimal rotational speed (maximizing the power output) thanks to the turbine regulation system. The BEM-RANS model is validated against reference URANS simulations: it provides a reliable prediction for the power output (within a few % of the URANS results) at a computational cost which is lowered by several orders of magnitude. This model is applied to the analysis of the power produced by a row of Vertical Axis Water Turbines in a channel for various values of the blockage ratio and lateral spacing as well as to a 3-machine sea farm. Hydrolienne carénée à flux transverse Modèle de cylindre actif Simulation numérique RANS/URANS Prédiction de la puissance produite Cross-flow ducted hydrokinetic turbine Active cylinder model RANS/URANS numerical simulation Power output prediction 620
3	Neural networks regularization through representation learning / Régularisation des réseaux de neurones via l'apprentissage des représentations Belharbi, Soufiane 06 July 2018 (has links) Les modèles de réseaux de neurones et en particulier les modèles profonds sont aujourd'hui l'un des modèles à l'état de l'art en apprentissage automatique et ses applications. Les réseaux de neurones profonds récents possèdent de nombreuses couches cachées ce qui augmente significativement le nombre total de paramètres. L'apprentissage de ce genre de modèles nécessite donc un grand nombre d'exemples étiquetés, qui ne sont pas toujours disponibles en pratique. Le sur-apprentissage est un des problèmes fondamentaux des réseaux de neurones, qui se produit lorsque le modèle apprend par coeur les données d'apprentissage, menant à des difficultés à généraliser sur de nouvelles données. Le problème du sur-apprentissage des réseaux de neurones est le thème principal abordé dans cette thèse. Dans la littérature, plusieurs solutions ont été proposées pour remédier à ce problème, tels que l'augmentation de données, l'arrêt prématuré de l'apprentissage ("early stopping"), ou encore des techniques plus spécifiques aux réseaux de neurones comme le "dropout" ou la "batch normalization". Dans cette thèse, nous abordons le sur-apprentissage des réseaux de neurones profonds sous l'angle de l'apprentissage de représentations, en considérant l'apprentissage avec peu de données. Pour aboutir à cet objectif, nous avons proposé trois différentes contributions. La première contribution, présentée dans le chapitre 2, concerne les problèmes à sorties structurées dans lesquels les variables de sortie sont à grande dimension et sont généralement liées par des relations structurelles. Notre proposition vise à exploiter ces relations structurelles en les apprenant de manière non-supervisée avec des autoencodeurs. Nous avons validé notre approche sur un problème de régression multiple appliquée à la détection de points d'intérêt dans des images de visages. Notre approche a montré une accélération de l'apprentissage des réseaux et une amélioration de leur généralisation. La deuxième contribution, présentée dans le chapitre 3, exploite la connaissance a priori sur les représentations à l'intérieur des couches cachées dans le cadre d'une tâche de classification. Cet à priori est basé sur la simple idée que les exemples d'une même classe doivent avoir la même représentation interne. Nous avons formalisé cet à priori sous la forme d'une pénalité que nous avons rajoutée à la fonction de perte. Des expérimentations empiriques sur la base MNIST et ses variantes ont montré des améliorations dans la généralisation des réseaux de neurones, particulièrement dans le cas où peu de données d'apprentissage sont utilisées. Notre troisième et dernière contribution, présentée dans le chapitre 4, montre l'intérêt du transfert d'apprentissage ("transfer learning") dans des applications dans lesquelles peu de données d'apprentissage sont disponibles. L'idée principale consiste à pré-apprendre les filtres d'un réseau à convolution sur une tâche source avec une grande base de données (ImageNet par exemple), pour les insérer par la suite dans un nouveau réseau sur la tâche cible. Dans le cadre d'une collaboration avec le centre de lutte contre le cancer "Henri Becquerel de Rouen", nous avons construit un système automatique basé sur ce type de transfert d'apprentissage pour une application médicale où l'on dispose d’un faible jeu de données étiquetées. Dans cette application, la tâche consiste à localiser la troisième vertèbre lombaire dans un examen de type scanner. L’utilisation du transfert d’apprentissage ainsi que de prétraitements et de post traitements adaptés a permis d’obtenir des bons résultats, autorisant la mise en oeuvre du modèle en routine clinique. / Neural network models and deep models are one of the leading and state of the art models in machine learning. They have been applied in many different domains. Most successful deep neural models are the ones with many layers which highly increases their number of parameters. Training such models requires a large number of training samples which is not always available. One of the fundamental issues in neural networks is overfitting which is the issue tackled in this thesis. Such problem often occurs when the training of large models is performed using few training samples. Many approaches have been proposed to prevent the network from overfitting and improve its generalization performance such as data augmentation, early stopping, parameters sharing, unsupervised learning, dropout, batch normalization, etc. In this thesis, we tackle the neural network overfitting issue from a representation learning perspective by considering the situation where few training samples are available which is the case of many real world applications. We propose three contributions. The first one presented in chapter 2 is dedicated to dealing with structured output problems to perform multivariate regression when the output variable y contains structural dependencies between its components. Our proposal aims mainly at exploiting these dependencies by learning them in an unsupervised way. Validated on a facial landmark detection problem, learning the structure of the output data has shown to improve the network generalization and speedup its training. The second contribution described in chapter 3 deals with the classification task where we propose to exploit prior knowledge about the internal representation of the hidden layers in neural networks. This prior is based on the idea that samples within the same class should have the same internal representation. We formulate this prior as a penalty that we add to the training cost to be minimized. Empirical experiments over MNIST and its variants showed an improvement of the network generalization when using only few training samples. Our last contribution presented in chapter 4 showed the interest of transfer learning in applications where only few samples are available. The idea consists in re-using the filters of pre-trained convolutional networks that have been trained on large datasets such as ImageNet. Such pre-trained filters are plugged into a new convolutional network with new dense layers. Then, the whole network is trained over a new task. In this contribution, we provide an automatic system based on such learning scheme with an application to medical domain. In this application, the task consists in localizing the third lumbar vertebra in a 3D CT scan. A pre-processing of the 3D CT scan to obtain a 2D representation and a post-processing to refine the decision are included in the proposed system. This work has been done in collaboration with the clinic "Rouen Henri Becquerel Center" who provided us with data Régularisation Surapprentissage Réseau de neurones à passe avant Réseaux de neurones convolutifs Apprentissage multi-tâches Apprentissage non supervisé Apprentissage des représentations Transfert d’apprentissage Classification Régression univariée Régression multiple Prédiction à sortie structurée Connaissances à priori Neural network Deep learning Regularization Overfitting Feedforawrd networks Convolutional networks Multi-task learning Unsupervised learning Representation learning Transfer learning Classification Univariate regression Multivariate regression Structured output prediction Prior knowledge
4	Sensores virtuales para procesos con medidas escasas y retardos temporales Peñarrocha Alós, Ignacio 22 December 2008 (has links) En este trabajo se aborda el problema de controlar un proceso cuya salida se muestrea de forma irregular. Para ello se propone utilizar un predictor que estima las salidas del proceso en instantes regulares de tiempo más un controlador convencional que calcula la acción de control a partir de las estimaciones del predictor (técnica conocida como control inferencial). La predicción consiste en estimar las variables de salida que se desean controlar a partir de las mediciones realizadas con diversos sensores utilizando para ello un modelo matemático del proceso. El filtro de Kalman permite hacer la predicción de forma óptima si las perturbaciones tienen una distribución gaussiana de media cero, pero con el inconveniente de requerir un elevado coste computacional cuando se utilizan diferentes sensores con retardos temporales variantes. En este trabajo se propone una estrategia de predicción alternativa de bajo coste computacional cuyo diseño se basa en el conocimiento de la disponibilidad de mediciones y de los retardos (del proceso, del sistema de medición o del sistema de transmisión de datos) y de la naturaleza de las perturbaciones. Los predictores propuestos minimizan el error de predicción frente al muestreo aleatorio con retardos variantes, perturbaciones, ruido de medida, error de modelado, retardos en la acción de control e incertidumbre en los tiempos de medición. Las diferentes estrategias de diseño que se proponen se clasifican según el tipo de información que se dispone de las perturbaciones y del coste computacional requerido. Se han planteado los diseños para sistemas monovariables, multivariables, lineales y no lineales. Asimismo, también se ha elaborado una forma más eficiente de incluir mediciones escasas con retardo en el filtro de Kalman, con el objetivo de reducir el coste computacional de la predicción. En este trabajo se demuestra que los sistemas de control inferencial que utilizan los predictores propuestos cumplen con el principio de sep / Peñarrocha Alós, I. (2006). Sensores virtuales para procesos con medidas escasas y retardos temporales [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/3882 Medidas escasas Muestreo aleatorio Muestreo no convencional Pérdida de datos Convergencia de lyapunov Retardos variantes en el tiempo Postproceado de muestras Predicción de salidas Sensores virtuales Sistemas de control basados en red Mediciones distribuidas Fusión sensorial Observadores Scarce measurements Random sampling Unconventional sampling Missing-data Sensor fusion Time-varying sampling period Observers Networked control systems Virtual sensors Distributed measurements Output prediction Sample post-processing Time-varying delays Minear matrix inequalities Lyapunov convergence INGENIERIA DE SISTEMAS Y AUTOMATICA 331102 - Ingeniería de control

1

Page generated in 0.0812 seconds