Spelling suggestions: "subject:"doptimisation nonconvexe"" "subject:"doptimisation nonconvexes""
1 |
Optimisation non convexe en finance et en gestion de production : modèles et méthodes / Non convex optimization in finance and in production management : models and methodsTran, Duc Quynh 14 October 2011 (has links)
Cette thèse porte sur la recherche des techniques d’optimisation pour la résolution de certains problèmes importants en deux domaines : gestion de production. Il s’agit des problèmes d’optimisation non convexe de grande dimension. Notre travail est basé sur la programmation DC (Différence de fonctions convexes), DCA (DC algorithmes), la méthode par séparation et évaluation (SE). Cette démarche est motivée par la robustesse et la performance DC et DCA comparée aux autres méthodes. La thèse comprend trois parties : dans la première partie, nous présentons les outils fondamentaux et les techniques essentielles en programmation DC, DCA ainsi que les méthodes par séparation et évaluation. La deuxième partie concerne les problèmes d’optimisation non convexes en gestion de portefeuille. Nous avons étudié deux problèmes : problème min max continu en gestion de portefeuille en présence des contraintes de cardinalité ; une classe des problèmes d’optimisation à deux niveaux et son application en sélection de portefeuille. La troisième partie est consacrée à la recherche sur les problèmes d’optimisation non convexe en gestion de production. Trois problèmes ont été étudiés : minimisation du coût de maintenance comprenant le temps de séjour et la pénalité du retard ; minimisation du coût d’un système de production/stockage multi-étapes en présence de goulot d’étrangement. Détermination des prix de transfert et les politiques de stockage pour une chaîne d’approvisionnement de deux entreprises / This thesis deals with optimization techniques for solving some optimization problems in two domains : portfolio selection and production management. They are large scale non convex optimization problems due to integer variables and/or the non convexity of the objective function. Our approach is based on DC programming and DCA, DC relaxation techniques and the algorithm Branch and Bound. This work is motivated by the robustness and the performance of the DC programming and DCA compared to other methods. The thesis includes three parts : In the first part, we present the fundamental tools and the essential techniques in DC programming, DCA as well as the method Branch and Bound. The second one concerns some non convex optimization problem in portfolio selection. Two following problems are considered : Min max continuous problem with the cardinality constraints in portfolio selection ; A class of bilevel programming problems and its application in portfolio selection. The third part contains some non convex optimization problems in production management. We study three problems : Minimization of the maintenance cost involving the flow time and the tardiness penalty ; Minimization of the cost of multi-stages production/inventory systems with bottleneck ; Determination of transfer prices and inventory policy in supply chain of two enterprises
|
2 |
Apprentissage d'arbres de convolutions pour la représentation parcimonieuse / Convolution tree learning for sparse representationChabiron, Olivier 08 October 2015 (has links)
Le domaine de l'apprentissage de dictionnaire est le sujet d'attentions croissantes durant cette dernière décennie. L'apprentissage de dictionnaire est une approche adaptative de la représentation parcimonieuse de données. Les méthodes qui constituent l'état de l'art en DL donnent d'excellentes performances en approximation et débruitage. Cependant, la complexité calculatoire associée à ces méthodes restreint leur utilisation à de toutes petites images ou "patchs". Par conséquent, il n'est pas possible d'utiliser l'apprentissage de dictionnaire pour des applications impliquant de grandes images, telles que des images de télédétection. Dans cette thèse, nous proposons et étudions un modèle original d'apprentissage de dictionnaire, combinant une méthode de décomposition des images par convolution et des structures d'arbres de convolution pour les dictionnaires. Ce modèle a pour but de fournir des algorithmes efficaces pour traiter de grandes images, sans les décomposer en patchs. Dans la première partie, nous étudions comment optimiser une composition de convolutions de noyaux parcimonieux, un problème de factorisation matricielle non convexe. Ce modèle est alors utilisé pour construire des atomes de dictionnaire. Dans la seconde partie, nous proposons une structure de dictionnaire basée sur des arbres de convolution, ainsi qu'un algorithme de mise à jour de dictionnaire adapté à cette structure. Enfin, une étape de décomposition parcimonieuse est ajoutée à cet algorithme dans la dernière partie. À chaque étape de développement de la méthode, des expériences numériques donnent un aperçu de ses capacités d'approximation. / The dictionary learning problem has received increasing attention for the last ten years. DL is an adaptive approach for sparse data representation. Many state-of-the-art DL methods provide good performances for problems such as approximation, denoising and inverse problems. However, their numerical complexity restricts their use to small image patches. Thus, dictionary learning does not capture large features and is not a viable option for many applications handling large images, such as those encountered in remote sensing. In this thesis, we propose and study a new model for dictionary learning, combining convolutional sparse coding and dictionaries defined by convolutional tree structures. The aim of this model is to provide efficient algorithms for large images, avoiding the decomposition of these images into patches. In the first part, we study the optimization of a composition of convolutions with sparse kernels, to reach a target atom (such as a cosine, wavelet or curvelet). This is a non-convex matrix factorization problem. We propose a resolution method based on a Gaus-Seidel scheme, which produces good approximations of target atoms and whose complexity is linear with respect to the image size. Moreover, numerical experiments show that it is possible to find a global minimum. In the second part, we introduce a dictionary structure based on convolutional trees. We propose a dictionary update algorithm adapted to this structure and which complexity remains linear with respect to the image size. Finally, a sparse coding step is added to the algorithm in the last part. For each evolution of the proposed method, we illustrate its approximation abilities with numerical experiments.
|
3 |
Approches de la programmation DC et DCA en data mining : modélisation parcimonieuse de données.Thiao, Mamadou 28 October 2011 (has links) (PDF)
Nous abordons dans cette thèse les approches de la Programmation DC et DCAen Data Mining (fouille de données). Plus particulièrement, nous nous intéressons aux problèmes de parcimonie en modélisation parcimonieuse de données. Le travail porte sur des recherches théoriques et algorithmiques et la principale approche utilisée est la programmation DC et DCA.Nous avons établi des propriétés intéressantes, des reformulations DC, voire quadratiques,équivalentes pour ces problèmes grâce à de nouvelles techniques de pénalité exacte développées durant cette thèse. Ces résultats donnent une nouvelle facette et une nouvelle manière de voir ces problèmes de parcimonie afin de permettre une meilleure compréhension et prise en main de ces problèmes. Ces nouvelles techniques ont été appliquées dans le cadre de la modélisation parcimonieuse pour le problème de la valeur propre maximale et dans le cadre de la modélisation parcimonieuse dans les modèles de régression linéaire.La structure simple des reformulations obtenues se prête bien à la programmation DC et DCA pour la résolution. Les simulations numériques, obtenues avec DCA et un algorithme combiné DCA et la procédure Séparation et Evaluation pour l'optimisation globale, sont très intéressantes et très prometteuses et illustrent bien le potentiel de cette nouvelle approche.
|
4 |
Approches de la programmation DC et DCA en data mining : modélisation parcimonieuse de données. / DC programming approaches and DCA in Data Mining : sparse modellingThiao, Mamadou 28 October 2011 (has links)
Nous abordons dans cette thèse les approches de la Programmation DC et DCAen Data Mining (fouille de données). Plus particulièrement, nous nous intéressons aux problèmes de parcimonie en modélisation parcimonieuse de données. Le travail porte sur des recherches théoriques et algorithmiques et la principale approche utilisée est la programmation DC et DCA.Nous avons établi des propriétés intéressantes, des reformulations DC, voire quadratiques,équivalentes pour ces problèmes grâce à de nouvelles techniques de pénalité exacte développées durant cette thèse. Ces résultats donnent une nouvelle facette et une nouvelle manière de voir ces problèmes de parcimonie afin de permettre une meilleure compréhension et prise en main de ces problèmes. Ces nouvelles techniques ont été appliquées dans le cadre de la modélisation parcimonieuse pour le problème de la valeur propre maximale et dans le cadre de la modélisation parcimonieuse dans les modèles de régression linéaire.La structure simple des reformulations obtenues se prête bien à la programmation DC et DCA pour la résolution. Les simulations numériques, obtenues avec DCA et un algorithme combiné DCA et la procédure Séparation et Evaluation pour l’optimisation globale, sont très intéressantes et très prometteuses et illustrent bien le potentiel de cette nouvelle approche. / In this thesis, we investigate the DC Programming and DCA approaches in DataMining. More precisely, we are interested in the sparse approximation problems in sparse modelling. The work focuses on theoretical and algorithmic studies, mainly based on DC Programming and DCA. We established interesting properties concerning DC and quadratic reformulations for these problems with the help of new exact penalty techniques in DC programming. These results give new insights on these sparse approximation problems and so allow a better understanding and a better handling of these problems. These novel techniques were applied in both contexts of sparse eigenvalue problem and sparse approximation in linear models.The simple and nice structure of the obtained reformulations are suitably adapted to DC programming and DCA. Computational experiments are very interesting and promising, illustrating the potential of the novel approach.
|
5 |
Factor analysis of dynamic PET imagesCruz Cavalcanti, Yanna 31 October 2018 (has links)
La tomographie par émission de positrons (TEP) est une technique d'imagerie nucléaire noninvasive qui permet de quantifier les fonctions métaboliques des organes à partir de la diffusion d'un radiotraceur injecté dans le corps. Alors que l'imagerie statique est souvent utilisée afin d'obtenir une distribution spatiale de la concentration du traceur, une meilleure évaluation de la cinétique du traceur est obtenue par des acquisitions dynamiques. En ce sens, la TEP dynamique a suscité un intérêt croissant au cours des dernières années, puisqu'elle fournit des informations à la fois spatiales et temporelles sur la structure des prélèvements de traceurs en biologie \textit{in vivo}. Les techniques de quantification les plus efficaces en TEP dynamique nécessitent souvent une estimation de courbes temps-activité (CTA) de référence représentant les tissus ou une fonction d'entrée caractérisant le flux sanguin. Dans ce contexte, de nombreuses méthodes ont été développées pour réaliser une extraction non-invasive de la cinétique globale d'un traceur, appelée génériquement analyse factorielle. L'analyse factorielle est une technique d'apprentissage non-supervisée populaire pour identifier un modèle ayant une signification physique à partir de données multivariées. Elle consiste à décrire chaque voxel de l'image comme une combinaison de signatures élémentaires, appelées \textit{facteurs}, fournissant non seulement une CTA globale pour chaque tissu, mais aussi un ensemble des coefficients reliant chaque voxel à chaque CTA tissulaire. Parallèlement, le démélange - une instance particulière d'analyse factorielle - est un outil largement utilisé dans la littérature de l'imagerie hyperspectrale. En imagerie TEP dynamique, elle peut être très pertinente pour l'extraction des CTA, puisqu'elle prend directement en compte à la fois la non-négativité des données et la somme-à-une des proportions de facteurs, qui peuvent être estimées à partir de la diffusion du sang dans le plasma et les tissus. Inspiré par la littérature de démélange hyperspectral, ce manuscrit s'attaque à deux inconvénients majeurs des techniques générales d'analyse factorielle appliquées en TEP dynamique. Le premier est l'hypothèse que la réponse de chaque tissu à la distribution du traceur est spatialement homogène. Même si cette hypothèse d'homogénéité a prouvé son efficacité dans plusieurs études d'analyse factorielle, elle ne fournit pas toujours une description suffisante des données sousjacentes, en particulier lorsque des anomalies sont présentes. Pour faire face à cette limitation, les modèles proposés ici permettent un degré de liberté supplémentaire aux facteurs liés à la liaison spécifique. Dans ce but, une perturbation spatialement variante est introduite en complément d'une CTA nominale et commune. Cette variation est indexée spatialement et contrainte avec un dictionnaire, qui est soit préalablement appris ou explicitement modélisé par des non-linéarités convolutives affectant les tissus de liaisons non-spécifiques. Le deuxième inconvénient est lié à la distribution du bruit dans les images PET. Même si le processus de désintégration des positrons peut être décrit par une distribution de Poisson, le bruit résiduel dans les images TEP reconstruites ne peut généralement pas être simplement modélisé par des lois de Poisson ou gaussiennes. Nous proposons donc de considérer une fonction de coût générique, appelée $\beta$-divergence, capable de généraliser les fonctions de coût conventionnelles telles que la distance euclidienne, les divergences de Kullback-Leibler et Itakura-Saito, correspondant respectivement à des distributions gaussiennes, de Poisson et Gamma. Cette fonction de coût est appliquée à trois modèles d'analyse factorielle afin d'évaluer son impact sur des images TEP dynamiques avec différentes caractéristiques de reconstruction. / Thanks to its ability to evaluate metabolic functions in tissues from the temporal evolution of a previously injected radiotracer, dynamic positron emission tomography (PET) has become an ubiquitous analysis tool to quantify biological processes. Several quantification techniques from the PET imaging literature require a previous estimation of global time-activity curves (TACs) (herein called \textit{factors}) representing the concentration of tracer in a reference tissue or blood over time. To this end, factor analysis has often appeared as an unsupervised learning solution for the extraction of factors and their respective fractions in each voxel. Inspired by the hyperspectral unmixing literature, this manuscript addresses two main drawbacks of general factor analysis techniques applied to dynamic PET. The first one is the assumption that the elementary response of each tissue to tracer distribution is spatially homogeneous. Even though this homogeneity assumption has proven its effectiveness in several factor analysis studies, it may not always provide a sufficient description of the underlying data, in particular when abnormalities are present. To tackle this limitation, the models herein proposed introduce an additional degree of freedom to the factors related to specific binding. To this end, a spatially-variant perturbation affects a nominal and common TAC representative of the high-uptake tissue. This variation is spatially indexed and constrained with a dictionary that is either previously learned or explicitly modelled with convolutional nonlinearities affecting non-specific binding tissues. The second drawback is related to the noise distribution in PET images. Even though the positron decay process can be described by a Poisson distribution, the actual noise in reconstructed PET images is not expected to be simply described by Poisson or Gaussian distributions. Therefore, we propose to consider a popular and quite general loss function, called the $\beta$-divergence, that is able to generalize conventional loss functions such as the least-square distance, Kullback-Leibler and Itakura-Saito divergences, respectively corresponding to Gaussian, Poisson and Gamma distributions. This loss function is applied to three factor analysis models in order to evaluate its impact on dynamic PET images with different reconstruction characteristics.
|
6 |
Techniques avancées d'apprentissage automatique basées sur la programmation DC et DCA / Advanced machine learning techniques based on DC programming and DCAHo, Vinh Thanh 08 December 2017 (has links)
Dans cette thèse, nous développons certaines techniques avancées d'apprentissage automatique dans le cadre de l'apprentissage en ligne et de l'apprentissage par renforcement (« reinforcement learning » en anglais -- RL). L'épine dorsale de nos approches est la programmation DC (Difference of Convex functions) et DCA (DC Algorithm), et leur version en ligne, qui sont reconnues comme de outils puissants d'optimisation non convexe, non différentiable. Cette thèse se compose de deux parties : la première partie étudie certaines techniques d'apprentissage automatique en mode en ligne et la deuxième partie concerne le RL en mode batch et mode en ligne. La première partie comprend deux chapitres correspondant à la classification en ligne (chapitre 2) et la prédiction avec des conseils d'experts (chapitre 3). Ces deux chapitres mentionnent une approche unifiée d'approximation DC pour différents problèmes d'optimisation en ligne dont les fonctions objectives sont des fonctions de perte 0-1. Nous étudions comment développer des algorithmes DCA en ligne efficaces en termes d'aspects théoriques et computationnels. La deuxième partie se compose de quatre chapitres (chapitres 4, 5, 6, 7). Après une brève introduction du RL et ses travaux connexes au chapitre 4, le chapitre 5 vise à fournir des techniques efficaces du RL en mode batch basées sur la programmation DC et DCA. Nous considérons quatre différentes formulations d'optimisation DC en RL pour lesquelles des algorithmes correspondants basés sur DCA sont développés. Nous traitons les problèmes clés de DCA et montrons l'efficacité de ces algorithmes au moyen de diverses expériences. En poursuivant cette étude, au chapitre 6, nous développons les techniques du RL basées sur DCA en mode en ligne et proposons leurs versions alternatives. Comme application, nous abordons le problème du plus court chemin stochastique (« stochastic shortest path » en anglais -- SSP) au chapitre 7. Nous étudions une classe particulière de problèmes de SSP qui peut être reformulée comme une formulation de minimisation de cardinalité et une formulation du RL. La première formulation implique la norme zéro et les variables binaires. Nous proposons un algorithme basé sur DCA en exploitant une approche d'approximation DC de la norme zéro et une technique de pénalité exacte pour les variables binaires. Pour la deuxième formulation, nous utilisons un algorithme batch RL basé sur DCA. Tous les algorithmes proposés sont testés sur des réseaux routiers artificiels / In this dissertation, we develop some advanced machine learning techniques in the framework of online learning and reinforcement learning (RL). The backbones of our approaches are DC (Difference of Convex functions) programming and DCA (DC Algorithm), and their online version that are best known as powerful nonsmooth, nonconvex optimization tools. This dissertation is composed of two parts: the first part studies some online machine learning techniques and the second part concerns RL in both batch and online modes. The first part includes two chapters corresponding to online classification (Chapter 2) and prediction with expert advice (Chapter 3). These two chapters mention a unified DC approximation approach to different online learning algorithms where the observed objective functions are 0-1 loss functions. We thoroughly study how to develop efficient online DCA algorithms in terms of theoretical and computational aspects. The second part consists of four chapters (Chapters 4, 5, 6, 7). After a brief introduction of RL and its related works in Chapter 4, Chapter 5 aims to provide effective RL techniques in batch mode based on DC programming and DCA. In particular, we first consider four different DC optimization formulations for which corresponding attractive DCA-based algorithms are developed, then carefully address the key issues of DCA, and finally, show the computational efficiency of these algorithms through various experiments. Continuing this study, in Chapter 6 we develop DCA-based RL techniques in online mode and propose their alternating versions. As an application, we tackle the stochastic shortest path (SSP) problem in Chapter 7. Especially, a particular class of SSP problems can be reformulated in two directions as a cardinality minimization formulation and an RL formulation. Firstly, the cardinality formulation involves the zero-norm in objective and the binary variables. We propose a DCA-based algorithm by exploiting a DC approximation approach for the zero-norm and an exact penalty technique for the binary variables. Secondly, we make use of the aforementioned DCA-based batch RL algorithm. All proposed algorithms are tested on some artificial road networks
|
7 |
Etude d'une classe d'algorithmes d'optimisation non convexe : implémentation et applicationsChaarani, Jamal 04 July 1989 (has links) (PDF)
Sont concernes les problèmes d'optimisation non convexe et non différentiable du type d.c canonique. L'aspect théorique et l'aspect algorithmique sont abordés
|
8 |
Sparse and Scale-Invariant Methods in Image Processing / Méthodes parcimonieuses et invariantes d'échelle en traitement d'imageBadri, Hicham 01 December 2015 (has links)
Dans cette thèse, on présente de nouvelles approches à base de parcimonie et d'invariance d' échelle pour le développement de techniques rapides et efficaces en traitement d'images. Au lieu d'utiliser la norme l1 pour imposer la parcimonie, on exploite plutôt des pénalités non-convexes qui encouragent plus la parcimonie. On propose une approche de premier ordre pour estimer une solution d'un opérateur proximal non-convexe, ce qui permet d'exploiter facilement la non-convexité. On étudie aussi le problème de pluri-parcimonie quand le problème d'optimisation est composé de plusieurs termes parcimonieux. Ce cas survient généralement dans les problèmes qui nécessitent à la fois une estimation robuste pour rejeter les valeurs aberrantes et exploiter une information de parcimonie connue a priori. Ces techniques sont appliquées à plusieurs problèmes importants en vision par ordinateur bas niveau telles que le lissage sélectif, la séparation d'images, l'intégration robuste et la déconvolution. On propose aussi d'aller au-delà de la parcimonie et apprendre un modèle de mapping spectral non-local pour le débruitage d'images. La notion d'invariance d' échelle joue aussi un rôle important dans nos travaux. En exploitant ce principe, une définition précise des contours est définie, ce qui peut être complémentaire à la notion de parcimonie. Plus précisément, on peut construire des représentations invariantes pour la classification en se basant sur une architecture de réseaux convolutionnels profonds. L'invariance d' échelle permet aussi d'extraire les pixels qui portent les informations nécessaires pour la reconstruction ou aussi améliorer l'estimation du flot optique sur les images turbulentes en imposant la parcimonie comme régularisation sur les exposants de singularité locaux. / In this thesis, we present new techniques based on the notions of sparsity and scale invariance to design fast and efficient image processing applications. Instead of using the popular l1-norm to model sparsity, we focus on the use of non-convex penalties that promote more sparsity. We propose to use a first-order approximation to estimate a solution of non-convex proximal operators, which permits to easily use a wide rangeof penalties. We address also the problem of multi-sparsity, when the minimization problem is composed of various sparse terms, which typically arises in problems that require both a robust estimation to reject outliers and a sparse prior. These techniques are applied to various important problems in low-level computer vision such as edgeaware smoothing, image separation, robust integration and image deconvolution. We propose also to go beyond sparsity models and learn non-local spectral mapping with application to image denoising. Scale-invariance is another notion that plays an important role in our work. Using this principle, a precise definition of edges can be derived which can be complementary to sparsity. More precisely, we can extractinvariant features for classification from sparse representations in a deep convolutional framework. Scale-invariance permits also to extract relevant pixels for sparsifying images. We use this principle as well to improve optical ow estimation on turbulent images by imposing a sparse regularization on the local singular exponents instead of regular gradients.
|
9 |
Algorithmes d'optimisation en grande dimension : applications à la résolution de problèmes inverses / Large scale optimization algorithms : applications to solution of inverse problemsRepetti, Audrey 29 June 2015 (has links)
Une approche efficace pour la résolution de problèmes inverses consiste à définir le signal (ou l'image) recherché(e) par minimisation d'un critère pénalisé. Ce dernier s'écrit souvent sous la forme d'une somme de fonctions composées avec des opérateurs linéaires. En pratique, ces fonctions peuvent n'être ni convexes ni différentiables. De plus, les problèmes auxquels on doit faire face sont souvent de grande dimension. L'objectif de cette thèse est de concevoir de nouvelles méthodes pour résoudre de tels problèmes de minimisation, tout en accordant une attention particulière aux coûts de calculs ainsi qu'aux résultats théoriques de convergence. Une première idée pour construire des algorithmes rapides d'optimisation est d'employer une stratégie de préconditionnement, la métrique sous-jacente étant adaptée à chaque itération. Nous appliquons cette technique à l'algorithme explicite-implicite et proposons une méthode, fondée sur le principe de majoration-minimisation, afin de choisir automatiquement les matrices de préconditionnement. L'analyse de la convergence de cet algorithme repose sur l'inégalité de Kurdyka-L ojasiewicz. Une seconde stratégie consiste à découper les données traitées en différents blocs de dimension réduite. Cette approche nous permet de contrôler à la fois le nombre d'opérations s'effectuant à chaque itération de l'algorithme, ainsi que les besoins en mémoire, lors de son implémentation. Nous proposons ainsi des méthodes alternées par bloc dans les contextes de l'optimisation non convexe et convexe. Dans le cadre non convexe, une version alternée par bloc de l'algorithme explicite-implicite préconditionné est proposée. Les blocs sont alors mis à jour suivant une règle déterministe acyclique. Lorsque des hypothèses supplémentaires de convexité peuvent être faites, nous obtenons divers algorithmes proximaux primaux-duaux alternés, permettant l'usage d'une règle aléatoire arbitraire de balayage des blocs. L'analyse théorique de ces algorithmes stochastiques d'optimisation convexe se base sur la théorie des opérateurs monotones. Un élément clé permettant de résoudre des problèmes d'optimisation de grande dimension réside dans la possibilité de mettre en oeuvre en parallèle certaines étapes de calculs. Cette parallélisation est possible pour les algorithmes proximaux primaux-duaux alternés par bloc que nous proposons: les variables primales, ainsi que celles duales, peuvent être mises à jour en parallèle, de manière tout à fait flexible. A partir de ces résultats, nous déduisons de nouvelles méthodes distribuées, où les calculs sont répartis sur différents agents communiquant entre eux suivant une topologie d'hypergraphe. Finalement, nos contributions méthodologiques sont validées sur différentes applications en traitement du signal et des images. Nous nous intéressons dans un premier temps à divers problèmes d'optimisation faisant intervenir des critères non convexes, en particulier en restauration d'images lorsque l'image originale est dégradée par un bruit gaussien dépendant du signal, en démélange spectral, en reconstruction de phase en tomographie, et en déconvolution aveugle pour la reconstruction de signaux sismiques parcimonieux. Puis, dans un second temps, nous abordons des problèmes convexes intervenant dans la reconstruction de maillages 3D et dans l'optimisation de requêtes pour la gestion de bases de données / An efficient approach for solving an inverse problem is to define the recovered signal/image as a minimizer of a penalized criterion which is often split in a sum of simpler functions composed with linear operators. In the situations of practical interest, these functions may be neither convex nor smooth. In addition, large scale optimization problems often have to be faced. This thesis is devoted to the design of new methods to solve such difficult minimization problems, while paying attention to computational issues and theoretical convergence properties. A first idea to build fast minimization algorithms is to make use of a preconditioning strategy by adapting, at each iteration, the underlying metric. We incorporate this technique in the forward-backward algorithm and provide an automatic method for choosing the preconditioning matrices, based on a majorization-minimization principle. The convergence proofs rely on the Kurdyka-L ojasiewicz inequality. A second strategy consists of splitting the involved data in different blocks of reduced dimension. This approach allows us to control the number of operations performed at each iteration of the algorithms, as well as the required memory. For this purpose, block alternating methods are developed in the context of both non-convex and convex optimization problems. In the non-convex case, a block alternating version of the preconditioned forward-backward algorithm is proposed, where the blocks are updated according to an acyclic deterministic rule. When additional convexity assumptions can be made, various alternating proximal primal-dual algorithms are obtained by using an arbitrary random sweeping rule. The theoretical analysis of these stochastic convex optimization algorithms is grounded on the theory of monotone operators. A key ingredient in the solution of high dimensional optimization problems lies in the possibility of performing some of the computation steps in a parallel manner. This parallelization is made possible in the proposed block alternating primal-dual methods where the primal variables, as well as the dual ones, can be updated in a quite flexible way. As an offspring of these results, new distributed algorithms are derived, where the computations are spread over a set of agents connected through a general hyper graph topology. Finally, our methodological contributions are validated on a number of applications in signal and image processing. First, we focus on optimization problems involving non-convex criteria, in particular image restoration when the original image is corrupted with a signal dependent Gaussian noise, spectral unmixing, phase reconstruction in tomography, and blind deconvolution in seismic sparse signal reconstruction. Then, we address convex minimization problems arising in the context of 3D mesh denoising and in query optimization for database management
|
10 |
Non-Convex Optimization for Latent Data Models : Algorithms, Analysis and Applications / Optimisation Non Convexe pour Modèles à Données Latentes : Algorithmes, Analyse et ApplicationsKarimi, Belhal 19 September 2019 (has links)
De nombreux problèmes en Apprentissage Statistique consistent à minimiser une fonction non convexe et non lisse définie sur un espace euclidien. Par exemple, les problèmes de maximisation de la vraisemblance et la minimisation du risque empirique en font partie.Les algorithmes d'optimisation utilisés pour résoudre ce genre de problèmes ont été largement étudié pour des fonctions convexes et grandement utilisés en pratique.Cependant, l'accrudescence du nombre d'observation dans l'évaluation de ce risque empirique ajoutée à l'utilisation de fonctions de perte de plus en plus sophistiquées représentent des obstacles.Ces obstacles requièrent d'améliorer les algorithmes existants avec des mis à jour moins coûteuses, idéalement indépendantes du nombre d'observations, et d'en garantir le comportement théorique sous des hypothèses moins restrictives, telles que la non convexité de la fonction à optimiser.Dans ce manuscrit de thèse, nous nous intéressons à la minimisation de fonctions objectives pour des modèles à données latentes, ie, lorsque les données sont partiellement observées ce qui inclut le sens conventionnel des données manquantes mais est un terme plus général que cela.Dans une première partie, nous considérons la minimisation d'une fonction (possiblement) non convexe et non lisse en utilisant des mises à jour incrémentales et en ligne. Nous proposons et analysons plusieurs algorithmes à travers quelques applications.Dans une seconde partie, nous nous concentrons sur le problème de maximisation de vraisemblance non convexe en ayant recourt à l'algorithme EM et ses variantes stochastiques. Nous en analysons plusieurs versions rapides et moins coûteuses et nous proposons deux nouveaux algorithmes du type EM dans le but d'accélérer la convergence des paramètres estimés. / Many problems in machine learning pertain to tackling the minimization of a possibly non-convex and non-smooth function defined on a Many problems in machine learning pertain to tackling the minimization of a possibly non-convex and non-smooth function defined on a Euclidean space.Examples include topic models, neural networks or sparse logistic regression.Optimization methods, used to solve those problems, have been widely studied in the literature for convex objective functions and are extensively used in practice.However, recent breakthroughs in statistical modeling, such as deep learning, coupled with an explosion of data samples, require improvements of non-convex optimization procedure for large datasets.This thesis is an attempt to address those two challenges by developing algorithms with cheaper updates, ideally independent of the number of samples, and improving the theoretical understanding of non-convex optimization that remains rather limited.In this manuscript, we are interested in the minimization of such objective functions for latent data models, ie, when the data is partially observed which includes the conventional sense of missing data but is much broader than that.In the first part, we consider the minimization of a (possibly) non-convex and non-smooth objective function using incremental and online updates.To that end, we propose several algorithms exploiting the latent structure to efficiently optimize the objective and illustrate our findings with numerous applications.In the second part, we focus on the maximization of non-convex likelihood using the EM algorithm and its stochastic variants.We analyze several faster and cheaper algorithms and propose two new variants aiming at speeding the convergence of the estimated parameters.
|
Page generated in 0.1068 seconds