Global ETD Search

1	An Evaluation of the Indian Buffet Process as Part of a Recommendation System / En utvärdering av Indian Buffet Process som en del av ett rekommendationssystem Alinder, Helena, Nilsson, Josefin January 2018 (has links) This report investigates if it is possible to use the Indian Buffet Process (IBP), a stochastic process that defines a probability distribution, as part of a recommendation system. The report focuses on recommendation systems where one type of object, for instance movies, is recommended to another type of object, for instance users. A concept of performing link prediction with IBP is presented, along with a method for performing inference. Three papers that are related to the subject are presented and their results are analyzed together with additional experiments on an implementation of the IBP. The report arrives at the conclusion that it is possible to use IBP in a recommendation system when recommending one object to another. In order to use IBP priors in a recommendation system which include real-life datasets, the paper suggests the use of a coupled version of the IBP model and if possible perform inference with a parallel Gibbs sampling. / Denna rapport undersöker om det är möjligt att använda Indian Buffet Process (IBP), en stokatisk process som definierar en sannolikhetsfördelning, som en del av ett rekommendationssystem. Rapporten fokuserar på rekommendationssystem där en sorts objekt, exempelvis filmer, rekommenderas till en annan sorts objekt, exempelvis användare. Ett sätt att förutse länkar, link prediction, mellan olika objekt med hjälp av IBP presenteras tillsammans med en metod för att dra statistiska slutsatser, inference. Tre rapporter som är relaterade till ämnet presenteras och deras resultat analyseras tillsammans med ytterligare experiment på en implementation av IBP. Rapporten drar slutsatsen att det är möjligt att använda IBP i ett rekommendationssystem då systemet rekommenderar ett objekt till ett annat objekt. Rapporten föreslår en kopplad version av IBP för att kunna använda IBP i ett rekommendationssystem som arbetar på riktigt data samt att inference ska utföras med en parallell Gibbs sampling. Indian Buffet Process IBP Gibbs sampling recommendation systems Computer Sciences Datavetenskap (datalogi)
2	Approches bayésiennes non paramétriques et apprentissage de dictionnaire pour les problèmes inverses en traitement d'image / Bayesian nonparametrics approaches and dictionary learning for inverse problems in image processing Dang, Hong-Phuong 01 December 2016 (has links) L'apprentissage de dictionnaire pour la représentation parcimonieuse est bien connu dans le cadre de la résolution de problèmes inverses. Les méthodes d'optimisation et les approches paramétriques ont été particulièrement explorées. Ces méthodes rencontrent certaines limitations, notamment liées au choix de paramètres. En général, la taille de dictionnaire doit être fixée à l'avance et une connaissance des niveaux de bruit et éventuellement de parcimonie sont aussi nécessaires. Les contributions méthodologies de cette thèse concernent l'apprentissage conjoint du dictionnaire et de ces paramètres, notamment pour les problèmes inverses en traitement d'image. Nous étudions et proposons la méthode IBP-DL (Indien Buffet Process for Dictionary Learning) en utilisant une approche bayésienne non paramétrique. Une introduction sur les approches bayésiennes non paramétriques est présentée. Le processus de Dirichlet et son dérivé, le processus du restaurant chinois, ainsi que le processus Bêta et son dérivé, le processus du buffet indien, sont décrits. Le modèle proposé pour l'apprentissage de dictionnaire s'appuie sur un a priori de type Buffet Indien qui permet d'apprendre un dictionnaire de taille adaptative. Nous détaillons la méthode de Monte-Carlo proposée pour l'inférence. Le niveau de bruit et celui de la parcimonie sont aussi échantillonnés, de sorte qu'aucun réglage de paramètres n'est nécessaire en pratique. Des expériences numériques illustrent les performances de l'approche pour les problèmes du débruitage, de l'inpainting et de l'acquisition compressée. Les résultats sont comparés avec l'état de l'art.Le code source en Matlab et en C est mis à disposition. / Dictionary learning for sparse representation has been widely advocated for solving inverse problems. Optimization methods and parametric approaches towards dictionary learning have been particularly explored. These methods meet some limitations, particularly related to the choice of parameters. In general, the dictionary size is fixed in advance, and sparsity or noise level may also be needed. In this thesis, we show how to perform jointly dictionary and parameter learning, with an emphasis on image processing. We propose and study the Indian Buffet Process for Dictionary Learning (IBP-DL) method, using a bayesian nonparametric approach.A primer on bayesian nonparametrics is first presented. Dirichlet and Beta processes and their respective derivatives, the Chinese restaurant and Indian Buffet processes are described. The proposed model for dictionary learning relies on an Indian Buffet prior, which permits to learn an adaptive size dictionary. The Monte-Carlo method for inference is detailed. Noise and sparsity levels are also inferred, so that in practice no parameter tuning is required. Numerical experiments illustrate the performances of the approach in different settings: image denoising, inpainting and compressed sensing. Results are compared with state-of-the art methods is made. Matlab and C sources are available for sake of reproducibility. Représentations parcimonieuses Apprentissage de dictionnaire Problèmes inverses Bayésien non paramétrique Processus du Buffet Indien Monte-Carlo par chaînes de Markov Sparse representations Dictionary learning Inverse problems Bayesian non-parametric Indian Buffet Process Markov chain Monte Carlo
3	Probabilistic Models for Collecting, Analyzing, and Modeling Expression Data Le, Hai-Son Phuoc 01 May 2013 (has links) Advances in genomics allow researchers to measure the complete set of transcripts in cells. These transcripts include messenger RNAs (which encode for proteins) and microRNAs, short RNAs that play an important regulatory role in cellular networks. While this data is a great resource for reconstructing the activity of networks in cells, it also presents several computational challenges. These challenges include the data collection stage which often results in incomplete and noisy measurement, developing methods to integrate several experiments within and across species, and designing methods that can use this data to map the interactions and networks that are activated in specific conditions. Novel and efficient algorithms are required to successfully address these challenges. In this thesis, we present probabilistic models to address the set of challenges associated with expression data. First, we present a novel probabilistic error correction method for RNA-Seq reads. RNA-Seq generates large and comprehensive datasets that have revolutionized our ability to accurately recover the set of transcripts in cells. However, sequencing reads inevitably contain errors, which affect all downstream analyses. To address these problems, we develop an efficient hidden Markov modelbased error correction method for RNA-Seq data . Second, for the analysis of expression data across species, we develop clustering and distance function learning methods for querying large expression databases. The methods use a Dirichlet Process Mixture Model with latent matchings and infer soft assignments between genes in two species to allow comparison and clustering across species. Third, we introduce new probabilistic models to integrate expression and interaction data in order to predict targets and networks regulated by microRNAs. Combined, the methods developed in this thesis provide a solution to the pipeline of expression analysis used by experimentalists when performing expression experiments. genomics gene expression gene regulation microarray RNA-Seq transcriptomics error correction comparative genomics regulatory networks cross-species expression database Gene Expression Omnibus GEO orthologs microRNA target prediction Dirichlet Process Indian Buffet Process hidden Markov model immune response cancer. Computer Sciences
4	Modèles bayésiens pour l’identification de représentations antiparcimonieuses et l’analyse en composantes principales bayésienne non paramétrique / Bayesian methods for anti-sparse coding and non parametric principal component analysis Elvira, Clément 10 November 2017 (has links) Cette thèse étudie deux modèles paramétriques et non paramétriques pour le changement de représentation. L'objectif des deux modèles diffère. Le premier cherche une représentation en plus grande dimension pour gagner en robustesse. L'objectif est de répartir uniformément l’information d’un signal sur toutes les composantes de sa représentation en plus grande dimension. La recherche d'un tel code s'exprime comme un problème inverse impliquant une régularisation de type norme infinie. Nous proposons une formulation bayésienne du problème impliquant une nouvelle loi de probabilité baptisée démocratique, qui pénalise les fortes amplitudes. Deux algorithmes MCMC proximaux sont présentés pour approcher des estimateurs bayésiens. La méthode non supervisée présentée est appelée BAC-1. Des expériences numériques illustrent les performances de l’approche pour la réduction de facteur de crête. Le second modèle identifie un sous-espace pertinent de dimension réduite à des fins de modélisation. Mais les méthodes probabilistes proposées nécessitent généralement de fixer à l'avance la dimension du sous-espace. Ce travail introduit BNP-PCA, une version bayésienne non paramétrique de l'analyse en composantes principales. La méthode couple une loi uniforme sur les bases orthonormales à un a priori non paramétrique de type buffet indien pour favoriser une utilisation parcimonieuse des composantes principales et aucun réglage n'est nécessaire. L'inférence est réalisée à l'aide des méthodes MCMC. L'estimation de la dimension du sous-espace et le comportement numérique de BNP-PCA sont étudiés. Nous montrons la flexibilité de BNP-PCA sur deux applications / This thesis proposes Bayesian parametric and nonparametric models for signal representation. The first model infers a higher dimensional representation of a signal for sake of robustness by enforcing the information to be spread uniformly. These so called anti-sparse representations are obtained by solving a linear inverse problem with an infinite-norm penalty. We propose in this thesis a Bayesian formulation of anti-sparse coding involving a new probability distribution, referred to as the democratic prior. A Gibbs and two proximal samplers are proposed to approximate Bayesian estimators. The algorithm is called BAC-1. Simulations on synthetic data illustrate the performances of the two proposed samplers and the results are compared with state-of-the art methods. The second model identifies a lower dimensional representation of a signal for modelisation and model selection. Principal component analysis is very popular to perform dimension reduction. The selection of the number of significant components is essential but often based on some practical heuristics depending on the application. Few works have proposed a probabilistic approach to infer the number of significant components. We propose a Bayesian nonparametric principal component analysis called BNP-PCA. The proposed model involves an Indian buffet process to promote a parsimonious use of principal components, which is assigned a prior distribution defined on the manifold of orthonormal basis. Inference is done using MCMC methods. The estimators of the latent dimension are theoretically and empirically studied. The relevance of the approach is assessed on two applications Antiparcimonie Loi démocratique Méthodes proximales Bayésien non paramétrique Variété de Stiefel Processus du buffet indien Estimation de sous-espaces Anti-sparse representation Democratic distribution Monte Carlo Markov chains methods Proximal methods Bayesian nonparametrics Stiefel manifold Indian buffet process Subpace estimation
5	Modélisation des données financières par les modèles à chaîne de Markov cachée de haute dimension Maoude, Kassimou Abdoul Haki 04 1900 (has links) La classe des modèles à chaîne de Markov cachée (HMM, Hidden Markov Models) permet, entre autres, de modéliser des données financières. Par exemple, dans ce type de modèle, la distribution du rendement sur un actif financier est exprimée en fonction d'une variable non-observée, une chaîne de Markov, qui représente la volatilité de l'actif. Notons que les dynamiques de cette volatilité sont difficiles à reproduire, car la volatilité est très persistante dans le temps. Les HMM ont la particularité de permettre une variation de la volatilité selon les états de la chaîne de Markov. Historiquement, ces modèles ont été estimés avec un nombre faible de régimes (états), car le nombre de paramètres à estimer explose rapidement avec le nombre de régimes et l'optimisation devient vite difficile. Pour résoudre ce problème une nouvelle sous-classe de modèles à chaîne de Markov cachée, dite à haute dimension, a vu le jour grâce aux modèles dits factoriels et à de nouvelles méthodes de paramétrisation de la matrice de transition. L'objectif de cette thèse est d'étendre cette classe de modèles avec de nouvelles approches plus générales et de montrer leurs applications dans le domaine financier. Dans sa première partie, cette thèse formalise la classe des modèles factoriels à chaîne de Markov cachée et étudie les propriétés théoriques de cette classe de modèles. Dans ces modèles, la dynamique de la volatilité dépend d'une chaîne de Markov latente de haute dimension qui est construite en multipliant des chaînes de Markov de dimension plus faible, appelées composantes. Cette classe englobe les modèles factoriels à chaîne de Markov cachée précédemment proposés dont les composantes sont de dimension deux. Le modèle MDSV (Multifractal Discrete Stochastic Volatility) est introduit afin de pouvoir considérer des composantes de dimension supérieure à deux, généralisant ainsi les modèles factoriels existants. La paramétrisation particulière de ce modèle lui offre suffisamment de flexibilité pour reproduire différentes allures de décroissance de la fonction d'autocorrélation, comme celles qui sont observées sur les données financières. Un cadre est également proposé pour modéliser séparément ou simultanément les données de rendements financiers et de variances réalisées. Une analyse empirique sur 31 séries d'indices financiers montre que le modèle MDSV présente de meilleures performances en termes d'estimation et de prévision par rapport au modèle realized EGARCH. La modélisation par l'entremise des modèles factoriels à chaîne de Markov cachée nécessite qu'on définisse le nombre N de composantes à multiplier et cela suppose qu'il n'existe pas d'incertitude lié à ce nombre. La seconde partie de cette thèse propose, à travers une approche bayésienne, le modèle iFHMV (infinite Factorial Hidden Markov Volatility) qui autorise les données à déterminer le nombre de composantes nécessaires à leur modélisation. En s'inspirant du processus du buffet indien (IBP, Indian Buffet Process), un algorithme est proposé pour estimer ce modèle, sur les données de rendements financiers. Une analyse empirique sur les données de deux indices financiers et de deux actions permet de remarquer que le modèle iFHMV intègre l'incertitude liée au nombre de composantes pour les estimations et les prévisions. Cela lui permet de produire de meilleures prévisions par rapport à des modèles de référence. / Hidden Markov Models (HMMs) are popular tools to interpret, model and forecast financial data. In these models, the return dynamics on a financial asset evolve according to a non-observed variable, a Markov chain, which generally represents the volatility of the asset. This volatility is notoriously difficult to reproduce with statistical models as it is very persistent in time. HMMs allow the volatility to vary according to the states of a Markov chain. Historically, these models are estimated with a very small number of regimes (states), because the number of parameters to be estimated grows quickly with the number of regimes and the optimization becomes difficult. The objective of this thesis is to propose a general framework to construct HMMs with a richer state space and a higher level of volatility persistence. In the first part, this thesis studies a general class of high-dimensional HMMs, called factorial HMMs, and derives its theoretical properties. In these models, the volatility is linked to a high-dimensional Markov chain built by multiplying lower-dimensional Markov chains, called components. We discuss how previously proposed models based on two-dimensional components adhere to the factorial HMM framework. Furthermore, we propose a new process---the Multifractal Discrete Stochastic Volatility (MDSV) process---which generalizes existing factorial HMMs to dimensions larger than two. The particular parametrization of the MDSV model allows for enough flexibility to reproduce different decay rates of the autocorrelation function, akin to those observed on financial data. A framework is also proposed to model financial log-returns and realized variances, either separately or jointly. An empirical analysis on 31 financial indices reveals that the MDSV model outperforms the realized EGARCH model in terms of fitting and forecasting performance. Our MDSV model requires us to pre-specify the number of components and assumes that there is no uncertainty on that number. In the second part of the thesis, we propose the infinite Factorial Hidden Markov Volatility (iFHMV) model as part of a Bayesian framework to let the data drive the selection of the number of components and take into account the uncertainty related to the number of components in the fitting and forecasting procedure. We also develop an algorithm inspired by the Indian Buffet Process (IBP) to estimate the iFHMV model on financial log-returns. Empirical analyses on two financial indices and two stocks show that the iFHMV model outperforms popular benchmarks in terms of forecasting performance. Volatilité modèles à chaîne de Markov cachée rendements financiers variances réalisées persistance modèles joints modèles bayésiens processus du buffet indien construction rupture de bâton Volatility financial return realized variance persistence joint models bayesian models Indian buffet process stick-breaking construction hidden Markov models Statistics / Statistiques (UMI : 0463)

1

Page generated in 0.0655 seconds