• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 13
  • 7
  • Tagged with
  • 20
  • 20
  • 11
  • 9
  • 8
  • 8
  • 8
  • 6
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Priors PAC-Bayes avec covariance pleine qui dépendent de la distribution source

Alain, Mathieu 09 November 2022 (has links)
L'ambition du présent mémoire est la présentation d'un ensemble de principes appelés la théorie PAC-Bayes. L'approche offre des garanties de type PAC aux algorithmes d'apprentissage bayésiens généralisés. Le mémoire traite essentiellement des cas où la distribution prior dépend des données. Le mémoire est divisé en trois chapitres. Le premier chapitre détaille les notions de base en apprentissage automatique. Il s'agit d'idées nécessaires à la bonne compréhension des deux chapitres subséquents. Le deuxième chapitre présente et discute de la théorie PAC-Bayes. Finalement, le troisième chapitre aborde l'idée d'une garantie PAC-Bayes où le prior dépend des données. Il y a deux contributions principales. La première contribution est une formulation analytique du risque empirique espéré pour les distributions elliptiques. La seconde contribution est une extension du travail de Parrado-Hernández et al. (34). En effet, il s'agit du développement d'une garantie PAC-Bayes avec un prior espérance non sphérique. / The ambition of this thesis is to present a set of principles called the PAC-Bayes theory. The approach provides PAC-like guarantees for generalised Bayesian learning algorithms. This thesis deals essentially with cases where the prior distribution is data dependent. The paper is divided into three chapters. The first chapter details the core concepts of machine learning. These are ideas that are necessary for a good understanding of the two subsequent chapters. The second chapter presents and discusses the PAC-Bayes theory. Finally, the third chapter addresses the idea of a PAC-Bayes guarantee where the prior depend on the data. There are two main contributions. The first contribution is an analytical formulation of the empirical expected risk for elliptical distributions. The second contribution is an extension of the work of Parrado-Hernández et al. (34). Indeed, it is the development of a PAC-Bayes guarantee with a non-spherical prior expectation.
2

PAC-Bayesian representation learning

Letarte, Gaël 12 November 2023 (has links)
Titre de l'écran-titre (visionné le 26 juin 2023) / En apprentissage automatique, des algorithmes sont utilisés pour apprendre des modèles mathématiques à partir de données recueillies afin de résoudre une tâche. Trouver une représentation appropriée pour décrire les données d'entrée est une étape essentielle pour obtenir un résultat favorable. Initialement, les données d'un problème spécifique étaient représentées par des attributs élaborés manuellement dans le cadre d'un processus long et ardu. Cette étape a été révolutionnée avec l'avènement de l'apprentissage de représentations, un ensemble de techniques permettant de construire automatiquement une représentation pour une tâche donnée. En pratique, les succès de l'apprentissage de représentations ont conduit à des percées remarquables dans divers domaines, notamment grâce aux méthodes d'apprentissage profond des dernières années. Cependant, ces réalisations empiriques manquent souvent d'analyse théorique solide pour fournir des garanties statistiques et une compréhension poussée. La théorie de l'apprentissage statistique, telle que la théorie PAC-Bayésienne, est un outil puissant pour étudier les algorithmes d'apprentissage automatique et les performances de généralisation des modèles. La théorie PAC-Bayésienne exprime des garanties de généralisation sur des prédicteurs qui sont construits comme une agrégation de plusieurs prédicteurs plus simples. Dans ce travail, nous nous concentrons sur l'utilisation de la théorie PAC-Bayésienne pour développer de nouvelles techniques d'apprentissage de représentations ayant des propriétés intéressantes. Tout d'abord, nous explorons l'apprentissage par noyau en nous appuyant sur la méthode des attributs aléatoires de Fourier interprétée comme un vote de majorité et analysée dans le cadre PAC-Bayésien. Nous proposons deux approches d'apprentissage : un algorithme d'alignement de noyaux et un apprentissage par mesure de similarité basée sur des points de repère. Ensuite, nous adaptons nos travaux d'apprentissage par noyau à un cadre non supervisé en utilisant des données non étiquetées avec des informations de similarité afin d'apprendre des représentations pertinentes. Finalement, nous analysons les réseaux de neurones profonds avec activation binaire en utilisant la théorie PAC-Bayésienne. Nous développons une approche pour apprendre de tels réseaux et nous obtenons des garanties de généralisation non triviales pour nos modèles. / In machine learning, algorithms are used to learn mathematical models from gathered data to solve a task. Finding a suitable representation to describe the input data is an essential step towards a favorable outcome. Originally, hand-crafted features were designed in a time-consuming process to represent data for a specific problem. This was revolutionized with the advent of representation learning, which is a set of techniques to automatically build a representation for a given task. The practical successes of representation learning led to remarkable breakthroughs in various domains, notably driven by deep learning methods in recent years. However, those empirical achievements often lack a sound theoretical analysis to provide statistical guarantees and in-depth insights. A powerful tool to study machine learning algorithms and the generalization performance of models is statistical learning theory, such as the PAC-Bayesian theory. PAC-Bayes express generalization guarantees on predictors that are built as an aggregation of multiple simpler predictors. In this work, we focus on leveraging the PAC-Bayesian theory to develop novel representation learning techniques with advantageous properties. First, we explore kernel learning by building upon the kernel random Fourier features method interpreted as a majority vote and analyzed in the PAC-Bayesian framework. We propose two learning approaches: a kernel alignment algorithm and a landmarks-based similarity measure learning. Then, we adapt our kernel learning work for an unsupervised setting using unlabeled data with similarity information to learn relevant representations. Finally, we analyze deep neural networks with binary activation using the PAC-Bayesian theory. We develop a framework to train such networks, and we obtain nonvacuous generalization bounds for our approach.
3

Priors PAC-Bayes avec covariance pleine qui dépendent de la distribution source

Alain, Mathieu 12 November 2023 (has links)
L'ambition du présent mémoire est la présentation d'un ensemble de principes appelés la théorie PAC-Bayes. L'approche offre des garanties de type PAC aux algorithmes d'apprentissage bayésiens généralisés. Le mémoire traite essentiellement des cas où la distribution prior dépend des données. Le mémoire est divisé en trois chapitres. Le premier chapitre détaille les notions de base en apprentissage automatique. Il s'agit d'idées nécessaires à la bonne compréhension des deux chapitres subséquents. Le deuxième chapitre présente et discute de la théorie PAC-Bayes. Finalement, le troisième chapitre aborde l'idée d'une garantie PAC-Bayes où le prior dépend des données. Il y a deux contributions principales. La première contribution est une formulation analytique du risque empirique espéré pour les distributions elliptiques. La seconde contribution est une extension du travail de Parrado-Hernández et al. (34). En effet, il s'agit du développement d'une garantie PAC-Bayes avec un prior espérance non sphérique. / The ambition of this thesis is to present a set of principles called the PAC-Bayes theory. The approach provides PAC-like guarantees for generalised Bayesian learning algorithms. This thesis deals essentially with cases where the prior distribution is data dependent. The paper is divided into three chapters. The first chapter details the core concepts of machine learning. These are ideas that are necessary for a good understanding of the two subsequent chapters. The second chapter presents and discusses the PAC-Bayes theory. Finally, the third chapter addresses the idea of a PAC-Bayes guarantee where the prior depend on the data. There are two main contributions. The first contribution is an analytical formulation of the empirical expected risk for elliptical distributions. The second contribution is an extension of the work of Parrado-Hernández et al. (34). Indeed, it is the development of a PAC-Bayes guarantee with a non-spherical prior expectation.
4

La moyenne bayésienne pour les modèles basés sur les graphes acycliques orientés

Bouzite, Fatima Ezzahraa 01 March 2024 (has links)
Les méthodes d'inférence causale sont utiles pour répondre à plusieurs questions de recherche dans différents domaines, notamment en épidémiologie. Les graphes acycliques orientés sont des outils importants pour l'inférence causale. Entre autres, ils peuvent être utilisés pour identifier les variables confondantes utilisées dans l'ajustement de modèles statistiques afin d'estimer sans biais l'effet d'un traitement. Ces graphes sont construits à partir des connaissances du domaine d'application. Pourtant, ces connaissances sont parfois insuffisantes pour supposer que le graphe construit est correct. Souvent, un chercheur peut proposer divers graphiques correspondants à une même problématique. Dans ce projet, on développe une alternative au modèle moyen bayésien traditionnel qui se base sur un ensemble de graphes proposés par un utilisateur. Pour sa mise en œuvre, on estime d'abord la vraisemblance des données sous les modèles impliqués par chacun des graphes afin de déterminer la probabilité a posteriori de chaque graphe. On identifie, pour chaque graphe, un ensemble de covariables d'ajustement suffisant pour éviter le biais de confusion et on estime l'effet causal à partir d'approches appropriées en ajustant pour ces covariables. Finalement, l'effet causal global est estimé comme une moyenne pondérée des estimations correspondantes à chacun des graphes. La performance de cette approche est étudiée à l'aide d'une étude de simulation où le mécanisme de génération des données est inspiré de l'étude Study of Osteoporotic Fractures (SOF). Différents scénarios sont présentés selon les liens considérés entre les variables. L'étude de simulation démontre une bonne performance générale de notre méthode par comparaison au modèle moyen bayésien traditionnel. L'application de cette approche est illustrée à l'aide de données de l'étude SOF dont l'objectif est l'estimation de l'effet de l'activité physique sur le risque de fractures de la hanche. / Causal inference methods are useful for answering several research questions in different fields, including epidemiology. Directed acyclic graphs are important tools for causal inference. Among other things, they can be used to identify confounding variables used in fitting statistical models to unbiasedly estimate the effect of a treatment. These graphs are built from the knowledge of the domain of application. However, this knowledge is sometimes insufficient to assume that the constructed graph is correct. Often, a researcher can propose various graphs corresponding to the same problem. In this project, we develop an alternative to the traditional Bayesian model averaging which is based on a set of graphs proposed by a user. For its implementation, we first estimate the likelihood of the data under the models implied by each graph to determine the posterior probability of each graph. A set of adjustment covariates sufficient to control for confounding bias is identified for each graph and the causal effect is estimated using appropriate approaches by adjusting for these covariates. Finally, the overall causal effect is estimated as a weighted average of the graph-specific estimates. The performance of this approach is studied using a simulation study in which the data generation mechanism is inspired by the Study of Osteoporotic Fractures (SOF). Different scenarios varying in their relationships between the variables are presented. The simulation study shows a good overall performance of our method compared to the traditional Bayesian model averaging. The application of this approach is illustrated using data from the SOF, whose objective is to estimate the effect of physical activity on the risk of hip fractures.
5

Bayesian adaptive variable selection in linear models : a generalization of Zellner's informative g-prior

Ndiaye, Djibril 19 November 2023 (has links)
Bayesian inference is about recovering the full conditional posterior distribution of the parameters of a statistical model. This exercise, however, can be challenging to undertake if the model specification is not available a priori, as is typically the case. This thesis proposes a new framework to select the subset of regressors that are the relevant features that explain a target variable in linear regression models. We generalize Zellner's g-prior with a random matrix, and we present a likelihood-based search algorithm, which uses Bayesian tools to compute the posterior distribution of the model parameters over all possible models generated, based on the maximum a posteriori (MAP). We use Markov chain Monte Carlo (MCMC) methods to gather samples of the model parameters and specify all distributions underlying these model parameters. We then use these simulations to derive a posterior distribution for the model parameters by introducing a new parameter that allows us to control how the selection of variables is done. Using simulated datasets, we show that our algorithm yields a higher frequency of choosing the correct variables and has a higher predictive power relative to other widely used variable selection models such as adaptive Lasso, Bayesian adaptive Lasso, and relative to well-known machine learning algorithms. Taken together, this framework and its promising performance under various model environments highlight that simulation tools and Bayesian inference methods can be efficiently combined to deal with well-known problems that have long loomed the variable selection literature. / L'inférence bayésienne consiste à retrouver la distribution conditionnelle a posteriori complète des paramètres d'un modèle statistique. Cet exercice, cependant, peut être difficile à entreprendre si la spécification du modèle n'est pas disponible a priori, comme c'est généralement le cas. Cette thèse propose une nouvelle approche pour sélectionner le sous-ensemble de régresseurs qui sont les caractéristiques pertinentes qui expliquent une variable cible dans les modèles de régression linéaire. Nous généralisons le g-prior de Zellner avec une matrice aléatoire et nous présentons un algorithme de recherche basé sur la vraisemblance, qui utilise des outils bayésiens pour calculer la distribution a posteriori des paramètres du modèle sur tous les modèles possibles générés. La sélection du modèle se fera sur la base du maximum a posteriori (MAP). Nous utilisons les méthodes de Monte Carlo par chaînes de Markov pour échantillonner suivant les distributions a posteriori de ces paramètres du modèle. Nous utilisons ensuite ces simulations pour dériver une estimation a posteriori des paramètres du modèle en introduisant un autre paramètre qui nous permet de contrôler la manière dont la sélection de la variable est effectuée. À l'aide de données simulées, nous montrons que notre méthode donne une fréquence plus élevée de choix des variables importantes et a un pouvoir prédictif plus élevé par rapport à d'autres modèles de sélection de variables largement utilisés tels que le Lasso adaptatif, le Lasso adaptatif bayésien, et par rapport aux algorithmes d'apprentissage automatique bien connus. Pris ensemble, cette approche et ses performances prometteuses dans divers scénarios de données mettent en évidence le fait que les outils de simulation et les techniques d'inférence bayésienne puissent être efficacement combinés pour traiter des problèmes bien connus qui ont longtemps pesé sur la littérature de la sélection de variables (en particulier en grande dimension).
6

Inférence de la structure d'interactions de données bruitées

Lizotte, Simon 12 November 2023 (has links)
La science des réseaux est notamment à la recherche de modèles mathématiques capables de reproduire le comportement de systèmes complexes empiriques. Cependant, la représentation usuelle, le graphe, est parfois inadéquate étant donné sa limitation à encoder uniquement les relations par paires. De nombreux travaux récents suggèrent que l'utilisation de l'hypergraphe, une généralisation décrivant les interactions d'ordre supérieur (plus de deux composantes), permet d'expliquer des phénomènes auparavant incompris avec le graphe. Or, la structure de ces réseaux complexes est rarement ou difficilement observée directement. De fait, on mesure plutôt une quantité intermédiaire, comme la fréquence de chaque interaction, pour ensuite reconstruire la structure originale. Bien que de nombreuses méthodes de reconstruction de graphes aient été développées, peu d'approches permettent de retrouver les interactions d'ordre supérieur d'un système complexe. Dans ce mémoire, on développe une nouvelle approche de reconstruction pouvant déceler les interactions connectant trois noeuds parmi des observations dyadiques bruitées. Basée sur l'inférence bayésienne, cette méthode génère la distribution des hypergraphes les plus plausibles pour un jeu de données grâce à un algorithme de type Metropolis-Hastings-within-Gibbs, une méthode de Monte-Carlo par chaînes de Markov. En vue d'évaluer la pertinence d'un modèle d'interactions d'ordre supérieur pour des observations dyadiques, le modèle d'hypergraphe développé est comparé à un second modèle bayésien supposant que la structure sous-jacente est un graphe admettant deux types d'interactions par paires. Les résultats obtenus pour des hypergraphes synthétiques et empiriques indiquent que la corrélation intrinsèque à la projection d'interactions d'ordre supérieur améliore le processus de reconstruction lorsque les observations associées aux interactions dyadiques et triadiques sont semblables. / Network science is looking for mathematical models capable of reproducing the behavior of empirical complex systems. However, the usual representation, the graph, is sometimes inadequate given its limitation to encode only pairwise relationships. Many recent works suggest that the use of the hypergraph, a generalization describing higher-order interactions (more than two components), allows to explain phenomena previously not understood with graphs. However, the structure of these complex networks is seldom or hardly observed directly. Instead, we measure an intermediate quantity, such as the frequency of each interaction, and then reconstruct the original structure. Although many graph reconstruction methods have been developed, few approaches recover the higher-order interactions of a complex system. In this thesis, we develop a new reconstruction approach which detects interactions connecting three vertices among noisy dyadic observations. Based on Bayesian inference, this method generates the distribution of the most plausible hypergraphs for a dataset using a Metropolis-Hastings-within-Gibbs algorithm, a Markov chain Monte Carlo method. In order to evaluate the relevance of a higher-order interaction model for dyadic observations, the developed hypergraph model is compared to a second Bayesian model assuming that the underlying structure is a graph admitting two types of pairwise interactions. Results for synthetic and empirical hypergraphs indicate that the intrinsic correlation to the projection of higher-order interactions improves the reconstruction process when observations associated with dyadic and triadic interactions are similar.
7

Statistical guarantees for deep generative models : a PAC-Bayesian approach

Mbacke, Sokhna Diarra 25 November 2024 (has links)
Le sujet de cette thèse est l'analyse théorique des modèles génératifs profonds. Les modèles génératifs profonds sont des réseaux de neurones dont le but est d'apprendre une distribution de probabilité à partir d'un échantillon fini. Malgré leurs performances empiriques impressionnantes, les modèles génératifs profonds sont difficiles à analyser et il est difficile d'obtenir des garanties formelles sur leur comportement. Pour résoudre ce problème, nous utilisons la théorie PAC-Bayésienne, un outil fondamental en théorie de l'apprentissage statistique offrant des bornes de généralisation avec haute probabilité pour les modèles d'apprentissage automatique. Nous étendons la théorie PAC-Bayésienne et développons diverses bornes et techniques adaptées à l'étude des modèles génératifs profonds. Tout d'abord, nous étudions les réseaux adversariaux génératifs et obtenons des bornes supérieures quantitatives sur l'erreur de généralisation de la perte du critique, ainsi que des bornes supérieures sur la distance entre la distribution génératrice de données et la distribution apprise par le modèle. Ensuite, nous développons des garanties statistiques pour les autoencodeurs variationnels (VAEs). Nous commençons par dériver la première borne PAC-Bayésienne pour les distributions postérieures conditionnelles, et montrons que ces bornes peuvent être utilisées pour déduire des garanties de généralisation pour la perte de reconstruction du VAE. Nous dérivons également les premières bornes supérieures sur la distance entre la distribution génératrice de données et la distribution apprise par le modèle génératif du VAE. Enfin, nous étendons nos résultats aux modèles de débruitage par diffusion et dérivons une borne supérieure empirique pour la distribution apprise par un modèle de diffusion. / The subject of this work is the theoretical analysis of deep generative models. Deep generative models are neural networks designed to learn a probability distribution using a finite sample. Despite their impressive empirical performance, deep generative models are notoriously hard to analyze and it is difficult to obtain formal guarantees on their behaviour. To address this problem, we employ PAC-Bayesian theory, a fundamental tool in statistical learning theory offering high-probability generalization bounds for machine learning models. We extend PAC-Bayesian theory and develop various bounds and techniques tailored to the study of deep generative models. First, we study generative adversarial networks and derive quantitative upper bounds on the generalization error of the negative critic loss, as well as upper bounds on the distance between the data-generating distribution and the distribution learned by the model. Then, we develop statistical guarantees for Variational Autoencoders (VAEs). We start by deriving the first PAC-Bayes bounds for conditional posterior distributions, and show that these bounds can be used to derive generalization guarantees for the VAE's reconstruction loss. We also derive the first upper bounds on the distance between the data-generating distribution and the distribution learned by the VAE's generative model. Finally, we extend our results to denoising diffusion models and derive an empirical upper bound for the distribution learned by a diffusion model.
8

Forêts Aléatoires PAC-Bayésiennes

Zirakiza, Brice 19 April 2018 (has links)
Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires. / In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests.
9

Bornes PAC-Bayes et algorithmes d'apprentissage

Lacasse, Alexandre 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2010-2011 / L’objet principale de cette thèse est l’étude théorique et la conception d’algorithmes d’apprentissage concevant des classificateurs par vote de majorité. En particulier, nous présentons un théorème PAC-Bayes s’appliquant pour borner, entre autres, la variance de la perte de Gibbs (en plus de son espérance). Nous déduisons de ce théorème une borne du risque du vote de majorité plus serrée que la fameuse borne basée sur le risque de Gibbs. Nous présentons également un théorème permettant de borner le risque associé à des fonctions de perte générale. À partir de ce théorème, nous concevons des algorithmes d’apprentissage construisant des classificateurs par vote de majorité pondérés par une distribution minimisant une borne sur les risques associés aux fonctions de perte linéaire, quadratique, exponentielle, ainsi qu’à la fonction de perte du classificateur de Gibbs à piges multiples. Certains de ces algorithmes se comparent favorablement avec AdaBoost. / The main purpose of this thesis is the theoretical study and the design of learning algorithms returning majority-vote classifiers. In particular, we present a PAC-Bayes theorem allowing us to bound the variance of the Gibbs’ loss (not only its expectation). We deduce from this theorem a bound on the risk of a majority vote tighter than the famous bound based on the Gibbs’ risk. We also present a theorem that allows to bound the risk associated with general loss functions. From this theorem, we design learning algorithms building weighted majority vote classifiers minimizing a bound on the risk associated with the following loss functions : linear, quadratic and exponential. Also, we present algorithms based on the randomized majority vote. Some of these algorithms compare favorably with AdaBoost.
10

Sample Compressed PAC-Bayesian Bounds and learning algorithms

Shanian, Sara 18 April 2018 (has links)
Dans le domaine de la classification, les algorithmes d'apprentissage par compression d'échantillons sont des algorithmes qui utilisent les données d'apprentissage disponibles pour construire l'ensemble de classificateurs possibles. Si les données appartiennent seulement à un petit sous-espace de l'espace de toutes les données «possibles», ces algorithmes possédent l'intéressante capacité de ne considérer que les classificateurs qui permettent de distinguer les exemples qui appartiennent à notre domaine d'intérêt. Ceci contraste avec d'autres algorithmes qui doivent considérer l'ensemble des classificateurs avant d'examiner les données d'entraînement. La machine à vecteurs de support (le SVM) est un algorithme d'apprentissage très performant qui peut être considéré comme un algorithme d'apprentissage par compression d'échantillons. Malgré son succès, le SVM est actuellement limité par le fait que sa fonction de similarité doit être un noyau symétrique semi-défini positif. Cette limitation rend le SVM difficilement applicable au cas où on désire utiliser une mesure de similarité quelconque. / In classification, sample compression algorithms are the algorithms that make use of the available training data to construct the set of possible predictors. If the data belongs to only a small subspace of the space of all "possible" data, such algorithms have the interesting ability of considering only the predictors that distinguish examples in our areas of interest. This is in contrast with non sample compressed algorithms which have to consider the set of predictors before seeing the training data. The Support Vector Machine (SVM) is a very successful learning algorithm that can be considered as a sample-compression learning algorithm. Despite its success, the SVM is currently limited by the fact that its similarity function must be a symmetric positive semi-definite kernel. This limitation by design makes SVM hardly applicable for the cases where one would like to be able to use any similarity measure of input example. PAC-Bayesian theory has been shown to be a good starting point for designing learning algorithms. In this thesis, we propose a PAC-Bayes sample-compression approach to kernel methods that can accommodate any bounded similarity function. We show that the support vector classifier is actually a particular case of sample-compressed classifiers known as majority votes of sample-compressed classifiers. We propose two different groups of PAC-Bayesian risk bounds for majority votes of sample-compressed classifiers. The first group of proposed bounds depends on the KL divergence between the prior and the posterior over the set of sample-compressed classifiers. The second group of proposed bounds has the unusual property of having no KL divergence when the posterior is aligned with the prior in some precise way that we define later in this thesis. Finally, for each bound, we provide a new learning algorithm that consists of finding the predictor that minimizes the bound. The computation times of these algorithms are comparable with algorithms like the SVM. We also empirically show that the proposed algorithms are very competitive with the SVM.

Page generated in 0.0395 seconds