Global ETD Search

31	Algorithmes d'accélération générique pour les méthodes d'optimisation en apprentissage statistique / Generic acceleration schemes for gradient-based optimization in machine learning Lin, Hongzhou 16 November 2017 (has links) Les problèmes d’optimisation apparaissent naturellement pendant l’entraine-ment de modèles d’apprentissage supervises. Un exemple typique est le problème deminimisation du risque empirique (ERM), qui vise a trouver un estimateur en mini-misant le risque sur un ensemble de données. Le principal défi consiste a concevoirdes algorithmes d’optimisation efficaces permettant de traiter un grand nombre dedonnées dans des espaces de grande dimension. Dans ce cadre, les méthodes classiques d’optimisation, telles que l’algorithme de descente de gradient et sa varianteaccélérée, sont couteux en termes de calcul car elles nécessitent de passer a traverstoutes les données a chaque évaluation du gradient. Ce défaut motive le développement de la classe des algorithmes incrémentaux qui effectuent des mises a jour avecdes gradients incrémentaux. Ces algorithmes réduisent le cout de calcul par itération, entrainant une amélioration significative du temps de calcul par rapport auxméthodes classiques. Une question naturelle se pose : serait-il possible d’accélérerdavantage ces méthodes incrémentales ? Nous donnons ici une réponse positive, enintroduisant plusieurs schémas d’accélération génériques.Dans le chapitre 2, nous développons une variante proximale de l’algorithmeFinito/MISO, qui est une méthode incrémentale initialement conçue pour des problèmes lisses et fortement convexes. Nous introduisons une étape proximale dans lamise a jour de l’algorithme pour prendre en compte la pénalité de régularisation quiest potentiellement non lisse. L’algorithme obtenu admet un taux de convergencesimilaire a l’algorithme Finito/MISO original.Dans le chapitre 3, nous introduisons un schéma d’accélération générique, appele Catalyst, qui s’applique a une grande classe de méthodes d’optimisation, dansle cadre d’optimisations convexes. La caractéristique générique de notre schémapermet l’utilisateur de sélectionner leur méthode préférée la plus adaptée aux problemes. Nous montrons que en appliquant Catalyst, nous obtenons un taux deconvergence accélère. Plus important, ce taux coïncide avec le taux optimale desméthodes incrémentales a un facteur logarithmique pres dans l’analyse du pire descas. Ainsi, notre approche est non seulement générique mais aussi presque optimale du point de vue théorique. Nous montrons ensuite que l’accélération est bienprésentée en pratique, surtout pour des problèmes mal conditionnes.Dans le chapitre 4, nous présentons une seconde approche générique qui appliqueles principes Quasi-Newton pour accélérer les méthodes de premier ordre, appeléeQNing. Le schéma s’applique a la même classe de méthodes que Catalyst. En outre,il admet une simple interprétation comme une combinaison de l’algorithme L-BFGSet de la régularisation Moreau-Yosida. A notre connaissance, QNing est le premieralgorithme de type Quasi-Newton compatible avec les objectifs composites et lastructure de somme finie.Nous concluons cette thèse en proposant une extension de l’algorithme Catalyst au cas non convexe. Il s’agit d’un travail en collaboration avec Dr. CourtneyPaquette et Pr. Dmitriy Drusvyatskiy, de l’Université de Washington, et mes encadrants de thèse. Le point fort de cette approche réside dans sa capacité a s’adapterautomatiquement a la convexité. En effet, aucune information sur la convexité de lafonction n’est nécessaire avant de lancer l’algorithme. Lorsque l’objectif est convexe,l’approche proposée présente les mêmes taux de convergence que l’algorithme Catalyst convexe, entrainant une accélération. Lorsque l’objectif est non-convexe, l’algorithme converge vers les points stationnaires avec le meilleur taux de convergencepour les méthodes de premier ordre. Des résultats expérimentaux prometteurs sontobserves en appliquant notre méthode a des problèmes de factorisation de matriceparcimonieuse et a l’entrainement de modèles de réseaux de neurones. / Optimization problems arise naturally in machine learning for supervised problems. A typical example is the empirical risk minimization (ERM) formulation, which aims to find the best a posteriori estimator minimizing the regularized risk on a given dataset. The current challenge is to design efficient optimization algorithms that are able to handle large amounts of data in high-dimensional feature spaces. Classical optimization methods such as the gradient descent algorithm and its accelerated variants are computationally expensive under this setting, because they require to pass through the entire dataset at each evaluation of the gradient. This was the motivation for the recent development of incremental algorithms. By loading a single data point (or a minibatch) for each update, incremental algorithms reduce the computational cost per-iteration, yielding a significant improvement compared to classical methods, both in theory and in practice. A natural question arises: is it possible to further accelerate these incremental methods? We provide a positive answer by introducing several generic acceleration schemes for first-order optimization methods, which is the main contribution of this manuscript. In chapter 2, we develop a proximal variant of the Finito/MISO algorithm, which is an incremental method originally designed for smooth strongly convex problems. In order to deal with the non-smooth regularization penalty, we modify the update by introducing an additional proximal step. The resulting algorithm enjoys a similar linear convergence rate as the original algorithm, when the problem is strongly convex. In chapter 3, we introduce a generic acceleration scheme, called Catalyst, for accelerating gradient-based optimization methods in the sense of Nesterov. Our approach applies to a large class of algorithms, including gradient descent, block coordinate descent, incremental algorithms such as SAG, SAGA, SDCA, SVRG, Finito/MISO, and their proximal variants. For all of these methods, we provide acceleration and explicit support for non-strongly convex objectives. The Catalyst algorithm can be viewed as an inexact accelerated proximal point algorithm, applying a given optimization method to approximately compute the proximal operator at each iteration. The key for achieving acceleration is to appropriately choose an inexactness criteria and control the required computational effort. We provide a global complexity analysis and show that acceleration is useful in practice. In chapter 4, we present another generic approach called QNing, which applies Quasi-Newton principles to accelerate gradient-based optimization methods. The algorithm is a combination of inexact L-BFGS algorithm and the Moreau-Yosida regularization, which applies to the same class of functions as Catalyst. To the best of our knowledge, QNing is the first Quasi-Newton type algorithm compatible with both composite objectives and the finite sum setting. We provide extensive experiments showing that QNing gives significant improvement over competing methods in large-scale machine learning problems. We conclude the thesis by extending the Catalyst algorithm into the nonconvex setting. This is a joint work with Courtney Paquette and Dmitriy Drusvyatskiy, from University of Washington, and my PhD advisors. The strength of the approach lies in the ability of the automatic adaptation to convexity, meaning that no information about the convexity of the objective function is required before running the algorithm. When the objective is convex, the proposed approach enjoys the same convergence result as the convex Catalyst algorithm, leading to acceleration. When the objective is nonconvex, it achieves the best known convergence rate to stationary points for first-order methods. Promising experimental results have been observed when applying to sparse matrix factorization problems and neural network models. Apprentissage statistique Large échelle Optimization Accélération Machine learning Large-Scale Optimization Acceleration 004 510
32	Apprentissage statistique relationnel : apprentissage de structures de réseaux de Markov logiques / Statistical relational learning : Structure learning for Markov logic networks Dinh, Quang-Thang 28 November 2011 (has links) Un réseau logique de Markov est formé de clauses en logique du premier ordre auxquelles sont associés des poids. Cette thèse propose plusieurs méthodes pour l’apprentissage de la structure de réseaux logiques de Markov (MLN) à partir de données relationnelles. Ces méthodes sont de deux types, un premier groupe reposant sur les techniques de propositionnalisation et un second groupe reposant sur la notion de Graphe des Prédicats. L’idée sous-jacente aux méthodes à base de propositionnalisation consiste à construire un jeu de clauses candidates à partir de jeux de littéraux dépendants. Pour trouver de tels jeux, nous utilisons une méthode de propositionnalisation afin de reporter les informations relationnelles dans des tableaux booléens, qui serviront comme tables de contingence pour des test de dépendance. Nous avons proposé deux méthodes de propositionnalisation, pour lesquelles trois algorithmes ont été développés, qui couvrent les problèmes d’appprentissage génératif et discriminant. Nous avons ensuite défini le concept de Graphe des Prédicats qui synthétise les relations binaires entre les prédicats d’un domaine. Des clauses candidates peuvent être rapidement et facilement produites en suivant des chemins dans le graphe puis en les variabilisant. Nous avons développé deux algorithmes reposant sur les Graphes des Prédicats, qui couvrent les problèmes d’appprentissage génératif et discriminant. / A Markov Logic Network is composed of a set of weighted first-order logic formulas. In this dissertation we propose several methods to learn a MLN structure from a relational dataset. These methods are of two kinds: methods based on propositionalization and methods based on Graph of Predicates. The methods based on propositionalization are based on the idea of building a set of candidate clauses from sets of dependent variable literals. In order to find such sets of dependent variable literals, we use a propositionalization technique to transform relational information in the dataset into boolean tables, that are then provided as contingency tables for tests of dependence. Two propositionalization methods are proposed, from which three learners have been developed, that handle both generative and discriminative learning. We then introduce the concept of Graph of Predicates, which synthethises the binary relations between the predicates of a domain. Candidate clauses can be quickly and easily generated by simply finding paths in the graph and then variabilizing them. Based on this Graph, two learners have been developed, that handle both generative and discriminative learning. Réseaux logiques de Markov Apprentissage de structure Apprentissage statistique relationnel Markov logic networks Structure learning Statistical relational learning
33	Multi-modal similarity learning for 3D deformable registration of medical images / Titre français non fourni Michel, Fabrice 04 October 2013 (has links) Alors que la perspective de la fusion d’images médicales capturées par des systèmes d’imageries de type différent est largement contemplée, la mise en pratique est toujours victime d’un obstacle théorique : la définition d’une mesure de similarité entre les images. Des efforts dans le domaine ont rencontrés un certain succès pour certains types d’images, cependant la définition d’un critère de similarité entre les images quelle que soit leur origine et un des plus gros défis en recalage d’images déformables. Dans cette thèse, nous avons décidé de développer une approche générique pour la comparaison de deux types de modalités donnés. Les récentes avancées en apprentissage statistique (Machine Learning) nous ont permis de développer des solutions innovantes pour la résolution de ce problème complexe. Pour appréhender le problème de la comparaison de données incommensurables, nous avons choisi de le regarder comme un problème de plongement de données : chacun des jeux de données est plongé dans un espace commun dans lequel les comparaisons sont possibles. A ces fins, nous avons exploré la projection d’un espace de données image sur l’espace de données lié à la seconde image et aussi la projection des deux espaces de données dans un troisième espace commun dans lequel les calculs sont conduits. Ceci a été entrepris grâce à l’étude des correspondances entre les images dans une base de données images pré-alignées. Dans la poursuite de ces buts, de nouvelles méthodes ont été développées que ce soit pour la régression d’images ou pour l’apprentissage de métrique multimodale. Les similarités apprises résultantes sont alors incorporées dans une méthode plus globale de recalage basée sur l’optimisation discrète qui diminue le besoin d’un critère différentiable pour la recherche de solution. Enfin nous explorons une méthode qui permet d’éviter le besoin d’une base de données pré-alignées en demandant seulement des données annotées (segmentations) par un spécialiste. De nombreuses expériences sont conduites sur deux bases de données complexes (Images d’IRM pré-alignées et Images TEP/Scanner) dans le but de justifier les directions prises par nos approches. / Even though the prospect of fusing images issued by different medical imagery systems is highly contemplated, the practical instantiation of it is subject to a theoretical hurdle: the definition of a similarity between images. Efforts in this field have proved successful for select pairs of images; however defining a suitable similarity between images regardless of their origin is one of the biggest challenges in deformable registration. In this thesis, we chose to develop generic approaches that allow the comparison of any two given modality. The recent advances in Machine Learning permitted us to provide innovative solutions to this very challenging problem. To tackle the problem of comparing incommensurable data we chose to view it as a data embedding problem where one embeds all the data in a common space in which comparison is possible. To this end, we explored the projection of one image space onto the image space of the other as well as the projection of both image spaces onto a common image space in which the comparison calculations are conducted. This was done by the study of the correspondences between image features in a pre-aligned dataset. In the pursuit of these goals, new methods for image regression as well as multi-modal metric learning methods were developed. The resulting learned similarities are then incorporated into a discrete optimization framework that mitigates the need for a differentiable criterion. Lastly we investigate on a new method that discards the constraint of a database of images that are pre-aligned, only requiring data annotated (segmented) by a physician. Experiments are conducted on two challenging medical images data-sets (Pre-Aligned MRI images and PET/CT images) to justify the benefits of our approach. Apprentissage statistique Recalage déformable Apprentissage de métrique Machine-learning Deformable registration Metric-learning
34	Algorithmes décentralisés et asynchrones pour l'apprentissage statistique large échelle et application à l'indexation multimédia / Decentralized and asynchronous algorithms for large scale machine learning and application to multimedia indexing Fellus, Jérôme 03 October 2017 (has links) Avec l’avènement de « l'ère des données », les besoins des systèmes de traitement de l'information en ressources de calcul ont explosé, dépassant largement les évolutions technologiques des processeurs modernes. Dans le domaine de l'apprentissage statistique en particulier, les paradigmes de calcul massivement distribués représentent la seule alternative praticable.L'algorithmique distribuée emprunte la plupart de ses concepts à l'algorithmique classique, centralisée et séquentielle, dans laquelle le comportement du système est décrit comme une suite d'instructions exécutées l'une après l'autre. L'importance de la communication entre unités de calcul y est généralement négligée et reléguée aux détails d'implémentation. Or, lorsque le nombre d'unités impliquées augmente, le poids des opérations locales s'efface devant les effets émergents propres aux larges réseaux d'unités. Pour conserver les propriétés désirables de stabilité, de prédictibilité et de programmabilité offertes par l'algorithmique centralisée, les paradigmes de calcul distribué doivent dès lors intégrer cette dimension qui relève de la théorie des graphes.Cette thèse propose un cadre algorithmique pour l'apprentissage statistique large échelle, qui prévient deux défaut majeurs des méthodes classiques : la centralisation et la synchronisation. Nous présentons ainsi plusieurs algorithmes basés sur des protocoles Gossip décentralisés et asynchrones, applicables aux problèmes de catégorisation, estimation de densité, réduction de dimension, classification et optimisation convexe. Ces algorithmes produisent des solutions identiques à leurs homologues centralisés, tout en offrant une accélération appréciable sur de larges réseaux pour un coût de communication très réduit. Ces qualités pratiques sont démontrées mathématiquement par une analyse de convergence détaillée. Nous illustrons finalement la pertinence des méthodes proposées sur des tâches d'indexation multimédia et de classification d'images. / With the advent of the "data era", the amount of computational resources required by information processing systems has exploded, largely exceeding the technological evolutions of modern processors. Specifically, contemporary machine learning applications necessarily resort to massively distributed computation.Distributed algorithmics borrows most of its concepts from classical centralized and sequential algorithmics, where the system's behavior is defined as a sequence of instructions, executed one after the other. The importance of communication between computation units is generally neglected and pushed back to implementation details. Yet, as the number of units grows, the impact of local operations vanishes behind the emergent effects related to the large network of units. To preserve the desirable properties of centralized algorithmics such as stability, predictability and programmability, distributed computational paradigms must encompass this graph-theoretical dimension.This thesis proposes an algorithmic framework for large scale machine learning, which prevent two major drawbacks of classical methods, namely emph{centralization} and emph{synchronization}. We therefore introduce several new algorithms based on decentralized and asynchronous Gossip protocols, for solving clustering, density estimation, dimension reduction, classification and general convex optimization problems, while offering an appreciable speed-up on large networks with a very low communication cost. These practical advantages are mathematically supported by a theoretical convergence analysis. We finally illustrate the relevance of proposed methods on multimedia indexing applications and real image classification tasks. Apprentissage statistique Indexation multimédia Bases de données reparties Machine learning Multimedia indexing Distributed databases
35	Sélection de variables à partir de données d'expression : signatures moléculaires pour le pronostic du cancer du sein et inférence de réseaux de régulation génique / Feature selection from gene expression data : molecular signatures for breast cancer prognosis and gene regulation network inference Haury, Anne-Claire 14 December 2012 (has links) De considérables développements dans le domaine des biotechnologies ont modifié notre approche de l'analyse de l'expression génique. En particulier, les puces à ADN permettent de mesurer l'expression des gènes à l'échelle du génome, dont l'analyse est confiée au statisticien.A partir de ces données dites en grande dimension, nous contribuons, dans cette thèse, à l'étude de deux problèmes biologiques. Nous traitons ces questions comme des problèmes d'apprentissage statistique supervisé et, en particulier, de sélection de variables, où il s'agit d'extraire, parmi toutes les variables - gènes - à disposition, celles qui sont nécessaires et suffisantes pour prédire la réponse à une question donnée.D'une part, nous travaillons à repérer des listes de gènes, connues sous le nom de signatures moléculaires et supposées contenir l'information nécessaire à la prédiction de l'issue du cancer du sein. La prédiction des événements métastatiques est en effet cruciale afin d'évaluer, dès l'apparition de la tumeur primaire, la nécessité d'un traitement par chimio-thérapie adjuvante, connue pour son agressivité. Nous présentons dans cette thèse trois contributions à ce problème. Dans la première, nous proposons une comparaison systématique des méthodes de sélection de variables, en termes de performance prédictive, de stabilité et d'interprétabilité biologique de la solution. Les deux autres contributions portent sur l'application de méthodes dites de parcimonie structurée (graph Lasso et k-support norm) au problème de sélection de signatures. Ces trois travaux discutent également l'impact de l'utilisation de méthodes d'ensemble (bootstrap et ré-échantillonnage).D'autre part, nous nous intéressons au problème d'inférence de réseau génique, consistant à déterminer la structure des interactions entre facteurs de transcription et gènes cibles. Les premiers sont des protéines ayant la faculté de réguler la transcription des gènes cibles, c'est-à-dire de l'activer ou de la réprimer. Ces régulations peuvent être représentées sous la forme d'un graphe dirigé, où les noeuds symbolisent les gènes et les arêtes leurs interactions. Nous proposons un nouvel algorithme, TIGRESS, classé troisième lors du challenge d'inférence de réseaux DREAM5 en 2010. Basé sur l'algorithme LARS couplé à une stratégie de ré-échantillonnage, TIGRESS traite chaque gène cible séparément, en sélectionnant ses régulateurs, puis assemble ces sous-problèmes pour prédire l'ensemble du réseau.Enfin, nous consacrons le dernier chapitre à une discussion ayant pour objectif de replacer les travaux de cette thèse dans un contexte bibliographique et épistémologique plus large. / Important developments in biotechnologies have moved the paradigm of gene expression analysis from a hypothesis-driven to a data-driven approach. In particular, DNA microarrays make it possible to measure gene expression on a genome-wide scale, leaving its analysis to statisticians.From these high-dimensional data, we contribute, in this thesis, to two biological problems. Both questions are considered from the supervised learning point of view. In particular, we see them as feature selection problems. Feature selection consists in extracting variables - here, genes - that contain relevant and sufficient information to predict the answer to a given question.First, we are concerned with selecting lists of genes, otherwise known as molecular signatures and assumed to contain the necessary amount of information to predict the outcome of breast cancer. It is indeed crucial to be able to estimate the chances for future metastatic events from the primary tumor, in order to evaluate the relevance of having the patient undergo an aggressive adjuvant chemotherapy. In this thesis, we present three contributions to this problem. First, we propose a systematic comparison of feature selection methods in terms of predictive performance, stability and biological interpretability of the solution they output. The second and third contributions focus on applying so-called structured sparsity methods (here graph Lasso and k-overlap norm) to the signature selection problem. In all three studies, we discuss the impact of using so-called Ensemble methods (bootstrap, resampling).Second, we are interested in the gene regulatory network inference problem that consists in determining patterns of interaction between transcription factors and target genes. The formers are proteins that regulate the transcription of target genes in that they can either activate or repress it. These regulations can be represented as a directed graph, where nodes symbolize genes and edges depict their interactions. We introduce a new algorithm named TIGRESS, that granted us the third place at the DREAM5 network inference challenge in 2010. Based on the LARS algorithm and a resampling procedure, TIGRESS considers each target gene independently by inferring its regulators and finally assembles individual predictions to provide an estimate of the entire network.Finally, in the last chapter, we provide a discussion that attempts to place the contributions of this thesis in a broader bibliographical and epistemological context. Apprentissage statistique Sélection de variables Réseau Prediction Machine learning Feature selection Network Prediction
36	Structured sparsity-inducing norms : statistical and algorithmic properties with applications to neuroimaging / Normes parcimonieuses structurées : propriétés statistiques et algorithmiques avec applications à l’imagerie cérébrale Jenatton, Rodolphe 24 November 2011 (has links) De nombreux domaines issus de l’industrie et des sciences appliquées ont été les témoins d’une révolution numérique. Cette dernière s’est accompagnée d’une croissance du volume des données, dont le traitement est devenu un défi technique. Dans ce contexte, la parcimonie est apparue comme un concept central en apprentissage statistique. Il est en effet naturel de vouloir exploiter les données disponibles via un nombre réduit de paramètres. Cette thèse se concentre sur une forme particulière et plus récente de parcimonie, nommée parcimonie structurée. Comme son nom l’indique, nous considérerons des situations où, au delà de la seule parcimonie, nous aurons également à disposition des connaissances a priori relatives à des propriétés structurelles du problème. L’objectif de cette thèse est d'analyser le concept de parcimonie structurée, en se basant sur des considérations statistiques, algorithmiques et appliquées. Nous commencerons par introduire une famille de normes structurées parcimonieuses dont les aspects statistiques sont étudiées en détail. Nous considérerons ensuite l’apprentissage de dictionnaires, où nous exploiterons les normes introduites précédemment dans un cadre de factorisation de matrices. Différents outils algorithmiques efficaces, tels que des méthodes proximales, seront alors proposés. Grâce à ces outils, nous illustrerons sur de nombreuses applications pourquoi la parcimonie structurée peut être bénéfique. Ces exemples contiennent des tâches de restauration en traitement de l’image, la modélisation hiérarchique de documents textuels, ou encore la prédiction de la taille d’objets à partir de signaux d’imagerie par résonance magnétique fonctionnelle. / Numerous fields of applied sciences and industries have been recently witnessing a process of digitisation. This trend has come with an increase in the amount digital data whose processing becomes a challenging task. In this context, parsimony, also known as sparsity, has emerged as a key concept in machine learning and signal processing. It is indeed appealing to exploit data only via a reduced number of parameters. This thesis focuses on a particular and more recent form of sparsity, referred to as structured sparsity. As its name indicates, we shall consider situations where we are not only interested in sparsity, but where some structural prior knowledge is also available. The goal of this thesis is to analyze the concept of structured sparsity, based on statistical, algorithmic and applied considerations. To begin with, we introduce a family of structured sparsity-inducing norms whose statistical aspects are closely studied. In particular, we show what type of prior knowledge they correspond to. We then turn to sparse structured dictionary learning, where we use the previous norms within the framework of matrix factorization. From an optimization viewpoint, we derive several efficient and scalable algorithmic tools, such as working-set strategies and proximal-gradient techniques. With these methods in place, we illustrate on numerous real-world applications from various fields, when and why structured sparsity is useful. This includes, for instance, restoration tasks in image processing, the modelling of text documents as hierarchy of topics, the inter-subject prediction of sizes of objects from fMRI signals, and background-subtraction problems in computer vision. Apprentissage statistique Optimisation convexe Parcimonie structurée Convex optimization Machine learning Structured sparcity
37	Autour De L'Usage des gradients en apprentissage statistique / Around the Use of Gradients in Machine Learning Massé, Pierre-Yves 14 December 2017 (has links) Nous établissons un théorème de convergence locale de l'algorithme classique d'optimisation de système dynamique RTRL, appliqué à un système non linéaire. L'algorithme RTRL est un algorithme en ligne, mais il doit maintenir une grande quantités d'informations, ce qui le rend impropre à entraîner des systèmes d'apprentissage de taille moyenne. L'algorithme NBT y remédie en maintenant une approximation aléatoire non biaisée de faible taille de ces informations. Nous prouvons également la convergence avec probabilité arbitrairement proche de un, de celui-ci vers l'optimum local atteint par l'algorithme RTRL. Nous formalisons également l'algorithme LLR et en effectuons une étude expérimentale, sur des données synthétiques. Cet algorithme met à jour de manière adaptive le pas d'une descente de gradient, par descente de gradient sur celui-ci. Il apporte ainsi une réponse partielle au problème de la fixation numérique du pas de descente, dont le choix influence fortement la procédure de descente et qui doit sinon faire l'objet d'une recherche empirique potentiellement longue par le praticien. / We prove a local convergence theorem for the classical dynamical system optimization algorithm called RTRL, in a nonlinear setting. The rtrl works on line, but maintains a huge amount of information, which makes it unfit to train even moderately big learning models. The NBT algorithm turns it by replacing these informations by a non-biased, low dimension, random approximation. We also prove the convergence with arbitrarily close to one probability, of this algorithm to the local optimum reached by the RTRL algorithm. We also formalize the LLR algorithm and conduct experiments on it, on synthetic data. This algorithm updates in an adaptive fashion the step size of a gradient descent, by conducting a gradient descent on this very step size. It therefore partially solves the issue of the numerical choice of a step size in a gradient descent. This choice influences strongly the descent and must otherwise be hand-picked by the user, following a potentially long research. Apprentissage statistique Optimisation stochastique Systèmes dynamiques Machine learning Stochastic optimisation Dynamical systems
38	A General Sequential Model for Constrained Classification / Modèles Sequentiels pour la Classification Multiclasse, Sparse et Budgetée Dulac-Arnold, Gabriel 07 February 2014 (has links) Nous proposons une nouvelle approche pour l'apprentissage de représentation parcimonieuse, où le but est de limiter le nombre de caractéristiques sélectionnées \textbf{par donnée}, résultant en un modèle que nous appellerons \textit{Modèle de parcimonie locale pour la classification} --- \textit{Datum-Wise Sparse Classification} (DWSC) en anglais. Notre approche autorise le fait que les caractéristiques utilisées lors de la classification peuvent être différentes d'une donnée à une autre: une donnée facile à classifier le sera ainsi en ne considérant que quelques caractéristiques, tandis que plus de caractéristiques seront utilisées pour les données plus complexes. Au contraire des approches traditionnelles de régularisation qui essaient de trouver un équilibre entre performance et parcimonie au niveau de l'ensemble du jeu de données, notre motivation est de trouver cet équilibre au niveau des données individuelles, autorisant une parcimonie moyenne plus élevée, pour une performance équivalente. Ce type de parcimonie est intéressant pour plusieurs raisons~: premièrement, nous partons du principe que les explications les plus simples sont toujours préférables~; deuxièmement, pour la compréhension des données, une représentation parcimonieuse par donnée fournit une information par rapport à la structure sous-jacente de celles-ci~: typiquement, si un jeu de données provient de deux distributions disjointes, DWSC autorise le modèle à choisir automatiquement de ne prendre en compte que les caractéristiques de la distribution génératrice de chaque donnée considérée. / This thesis introduces a body of work on sequential models for classification. These models allow for a more flexible and general approach to classification tasks. Many tasks ultimately require the classification of some object, but cannot be handled with a single atomic classification step. This is the case for tasks where information is either not immediately available upfront, or where the act of accessing different aspects of the object being classified may present various costs (due to time, computational power, monetary cost, etc.). The goal of this thesis is to introduce a new method, which we call datum-wise classification, that is able to handle these more complex classifications tasks by modelling them as sequential processes. Apprentissage statistique Apprentissage par renforcement Processus de décision markovien Processus sequential Sequential process Markov's decision process 004
39	Combining machine learning and evolution for the annotation of metagenomics data / La combinaison de l'apprentissage statistique et de l'évolution pour l'annotation des données métagénomiques Ugarte, Ari 16 December 2016 (has links) La métagénomique sert à étudier les communautés microbiennes en analysant de l’ADN extrait directement d’échantillons pris dans la nature, elle permet également d’établir un catalogue très étendu des gènes présents dans les communautés microbiennes. Ce catalogue doit être comparé contre les gènes déjà référencés dans les bases des données afin de retrouver des séquences similaires et ainsi déterminer la fonction des séquences qui le composent. Au cours de cette thèse, nous avons développé MetaCLADE, une nouvelle méthodologie qui améliore la détection des domaines protéiques déjà référencés pour des séquences issues des données métagénomiques et métatranscriptomiques. Pour le développement de MetaCLADE, nous avons modifié un système d’annotations de domaines protéiques qui a été développé au sein du Laboratoire de Biologie Computationnelle et Quantitative appelé CLADE (CLoser sequences for Annotations Directed by Evolution) [17]. En général les méthodes pour l’annotation de domaines protéiques caractérisent les domaines connus avec des modèles probabilistes. Ces modèles probabilistes, appelés Sequence Consensus Models (SCMs) sont construits à partir d’un alignement des séquences homologues appartenant à différents clades phylogénétiques et ils représentent le consensus à chaque position de l’alignement. Cependant, quand les séquences qui forment l’ensemble des homologues sont très divergentes, les signaux des SCMs deviennent trop faibles pour être identifiés et donc l’annotation échoue. Afin de résoudre ce problème d’annotation de domaines très divergents, nous avons utilisé une approche fondée sur l’observation que beaucoup de contraintes fonctionnelles et structurelles d’une protéine ne sont pas globalement conservées parmi toutes les espèces, mais elles peuvent être conservées localement dans des clades. L’approche consiste donc à élargir le catalogue de modèles probabilistes en créant de nouveaux modèles qui mettent l’accent sur les caractéristiques propres à chaque clade. MetaCLADE, un outil conçu dans l’objectif d’annoter avec précision des séquences issues des expériences métagénomiques et métatranscriptomiques utilise cette libraire afin de trouver des correspondances entre les modèles et une base de données de séquences métagénomiques ou métatranscriptomiques. En suite, il se sert d’une étape pré-calculée pour le filtrage des séquences qui permet de déterminer la probabilité qu’une prédiction soit considérée vraie. Cette étape pré-calculée est un processus d’apprentissage qui prend en compte la fragmentation de séquences métagénomiques pour les classer.Nous avons montré que l’approche multi source en combinaison avec une stratégie de méta apprentissage prenant en compte la fragmentation atteint une très haute performance. / Metagenomics is used to study microbial communities by the analyze of DNA extracted directly from environmental samples. It allows to establish a catalog very extended of genes present in the microbial communities. This catalog must be compared against the genes already referenced in the databases in order to find similar sequences and thus determine their function. In the course of this thesis, we have developed MetaCLADE, a new methodology that improves the detection of protein domains already referenced for metagenomic and metatranscriptomic sequences. For the development of MetaCLADE, we modified an annotation system of protein domains that has been developed within the Laboratory of Computational and Quantitative Biology clade called (closer sequences for Annotations Directed by Evolution) [17]. In general, the methods for the annotation of protein domains characterize protein domains with probabilistic models. These probabilistic models, called sequence consensus models (SCMs) are built from the alignment of homolog sequences belonging to different phylogenetic clades and they represent the consensus at each position of the alignment. However, when the sequences that form the homolog set are very divergent, the signals of the SCMs become too weak to be identified and therefore the annotation fails. In order to solve this problem of annotation of very divergent domains, we used an approach based on the observation that many of the functional and structural constraints in a protein are not broadly conserved among all species, but they can be found locally in the clades. The approach is therefore to expand the catalog of probabilistic models by creating new models that focus on the specific characteristics of each clade. MetaCLADE, a tool designed with the objective of annotate with precision sequences coming from metagenomics and metatranscriptomics studies uses this library in order to find matches between the models and a database of metagenomic or metatranscriptomic sequences. Then, it uses a pre-computed step for the filtering of the sequences which determine the probability that a prediction is a true hit. This pre-calculated step is a learning process that takes into account the fragmentation of metagenomic sequences to classify them. We have shown that the approach multi source in combination with a strategy of meta-learning taking into account the fragmentation outperforms current methods. Métagénomique Métatranscriptomique Annotation de domaine Apprentissage statistique Annotation de protéine Modèle probabiliste Metagenomics Metatranscriptomics Probabilistic models 004
40	Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes / Online learning by ensemble agregation : application to meteorological prediction with uncertainties Baudin, Paul 26 November 2015 (has links) Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. L'objectif est d'imaginer et d'appliquer des stratégies automatiques, qui tirent de l'expérience du passé et s'aident éventuellement de prédicteurs élémentaires. Nous souhaitons que ces stratégies obtiennent des garanties mathématiques robustes et soient valables dans des cas de figure très généraux. Cela nous permet en pratique d'appliquer les algorithmes qui en découlent à la prévision concrète de grandeurs météorologiques. Enfin, nous nous intéressons aux déclinaisons théoriques et pratiques dans un cadre de prévision de fonctions de répartition. Nous étudions dans un premier temps la prévision séquentielle de processus bornés stationnaires ergodiques. Dans ce but, nous nous plaçons dans le cadre des suites individuelles et proposons un arbre de régression déterministe dont les prévisions sont asymptotiquement meilleures que le meilleur prédicteur lipschitzien pour une certaine constante L. Puis nous montrons que les bornes de regret obtenues impliquent que les stratégies envisagées sont asymptotiquement optimales par rapport à la classe des processus stationnaire ergodique bornés. Dans un second temps, nous présentons une méthode d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer. L'objectif est d'obtenir, grâce à l'algorithme ridge, de meilleures performances en prévision qu'une certaine prévision de référence, à préciser. Tout d'abord, nous rappelons le cadre mathématique et les fondamentaux des sciences environnementales. Puis nous décrivons en détail les jeux de données utilisés et les performances pratiques de l'algorithme. Enfin, nous précisons certains aspects du jeu de données et certaines sensibilités aux paramètres l'algorithme ridge. Puis, nous déclinons la méthode précédente à l'étude d'une seconde grandeur physique : la norme de la vitesse du vent à dix mètres au-dessus du sol. Plusieurs remarques d'ordre physique sont faites au passage concernant ce jeu de données. Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données décrits précédemment. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie avant que ne soient détaillés les résultats empiriques de ceux-ci sur les jeux de données de pression réduite au niveau de la mer et de norme de la vitesse du vent. / In this thesis, we study sequential prediction problems. The goal is to devise and apply automatic strategy, learning from the past, with potential help from basis predictors. We desire these strategies to have strong mathematical guarantees and to be valid in the most general cases. This enables us to apply the algorithms deriving from the strategies to meteorological data predictions. Finally, we are interested in theoretical and practical versions of this sequential prediction framework to cumulative density function prediction. Firstly, we study online prediction of bounded stationary ergodic processes. To do so, we consider the setting of prediction of individual sequences and propose a deterministic regression tree that performs asymptotically as well as the best L-Lipschitz predictor. Then, we show why the obtained regret bound entails the asymptotical optimality with respect to the class of bounded stationary ergodic processes. Secondly, we propose a specific sequential aggregation method of meteorological simulation of mean sea level pressure. The aim is to obtain, with a ridge regression algorithm, better prediction performance than a reference prediction, belonging to the constant linear prediction of basis predictors. We begin by recalling the mathematical framework and basic notions of environmental science. Then, the used datasets and practical performance of strategies are studied, as well as the sensitivity of the algorithm to parameter tuning. We then transpose the former method to another meteorological variable: the wind speed 10 meter above ground. This study shows that the wind speed exhibits different behaviors on a macro level. In the last chapter, we present the tools used in a probabilistic prediction framework and underline their merits. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art. We carry on with an historical approach of popular probabilistic scores. The used algorithms are then thoroughly described before the descriptions of their empirical results on the mean sea level pressure and wind speed. Prévision séquentielle Météorologie Apprentissage statistique Prévision d'incertitudes Sequential prediction Meteorology Machine learning Uncertainty prediction

Search results