Spelling suggestions: "subject:"théorie dde lla décision bayésienne"" "subject:"théorie dde laa décision bayésienne""
1 |
Avoir raison a posteriori : analyse d'erreurs commises dans la littérature (PAC-)bayésienneVignault, Louis-Philippe 01 October 2024 (has links)
Étant donné les progrès majeurs de l'intelligence artificielle (IA) au cours des dernières années, de plus en plus de domaines d'application adoptent les outils proposés par l'IA afin d'accomplir une multitude de tâches. Considérant l'importance de ces tâches dans des domaines comme la santé et l'énergie, il est nécessaire d'être en mesure de garantir le bon fonctionnement des algorithmes d'IA. Plusieurs résultats proposés dans la littérature visent à garantir la bonne performance de certains algorithmes. Toutefois, l'existence d'erreurs au sein de la littérature scientifique est inévitable dû aux milliers d'articles qui sont publiés chaque année. Bien que plusieurs de ces erreurs aient des conséquences mineures, certaines, en revanche, peuvent avoir un impact considérable sur l'état des connaissances scientifiques ainsi qu'en pratique. Par conséquent, il est important d'identifier et de comprendre ces erreurs dès qu'elles sont identifiées. Dans ce mémoire, nous abordons deux erreurs identifiées dans la littérature liée à l'usage de la statistique bayésienne dans une approche visant à identifier ces erreurs, comprendre leur nature tant au niveau de la théorique que de l'intuition et explorer les implications de ces erreurs pour la recherche en IA. La première erreur concerne l'optimalité $\mathcal{C}$-borne dans le cadre de la classification binaire. Nous parvenons à démontrer que pour des problèmes bruités, cette borne ne peut pas atteindre la valeur théorique optimale et utilisons cette analyse afin de démontrer théoriquement la meilleure valeur que peut produire cette borne selon le problème de classification. La seconde erreur concerne la garantie théorique de la convergence de l'algorithme ADD-GP-UCB dans le cadre de l'optimisation bayésienne. Bien que cette erreur ait été soulevée par le passé, celle-ci n'a jamais été proprement abordée dans la littérature. Nous parvenons ainsi à démontrer l'invalidité de la preuve tout en explicitant une multitude de raisonnements fallacieux identifiés dans la littérature concernant cet algorithme. / Given the significant progress of artificial intelligence (AI) in recent years, an increasing number of application domains are adopting AI tools to perform a multitude of tasks. Considering the importance of these tasks in areas such as health and energy, it is necessary to ensure the proper behavior of these AI algorithms. Several results proposed in the literature aim to guarantee the proper performance of certain algorithms. However, due to the thousands of articles published each year, errors in scientific literature are inevitable. Although many of these errors are of minor consequences, some can have a significant impact regarding general scientific knowledge as well as in practice. Therefore, it is important to address and understand these errors as soon as they are identified. In this paper, we address two errors identified in the literature related to the use of Bayesian statistics. Our approach aims to identify these errors, understand their nature both on a theoretical and an intuitive level, and explore their implications in the field of AI. The first error concerns the optimality of the $\mathcal{C}$-bound, a bound used in the context of binary classification. We demonstrate that in a noisy setting, this bound cannot reach an optimal value. Our analysis leads to the proof of the best value the $\mathcal{C}$-bound can achieve for a given classification problem. The second error concerns the convergence of the ADD-GP-UCB algorithm in the context of Bayesian optimization. Although this error has been raised in the past, it has never been properly addressed in the literature. We manage to demonstrate that the proposed proof is invalid while also shining light on a multitude of fallacious statements found in the literature concerning this algorithm.
|
2 |
Analyse du degré d'association entre l'usage du téléphone mobile pendant la conduite et les accidents de voitureCourchesne, Stéphane January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Estimation bayésienne du lasso adaptatif pour l'issueGaye, Serigne Abib 22 March 2024 (has links)
Dans ce mémoire, on cherche à développer une nouvelle méthode d'estimation pour le lasso adaptatif pour l'issue en utilisant la machinerie bayésienne. L'hypothèse de recherche est que notre nouvelle méthode va beaucoup réduire la lourdeur computationnelle du lasso adaptatif pour l'issue. Notre méthode utilise les mêmes fondements théoriques que le lasso adaptatif pour l'issue. Elle remplit donc les conditions de la propriété d'oracle. Pour sa mise en ÷uvre, on ajuste d'abord un modèle du score de propension bayésien. Ensuite, on estime l'effet du traitement moyen par la pondération par l'inverse de la probabilité de traitement. Par ailleurs, nous considérons une distribution gamma pour le paramètre de régularisation qui nous permet de choisir ce paramètre à partir d'un ensemble continu, alors que le lasso adaptatif pour l'issue fréquentiste utilise une approche de validation croisée qui doit faire un choix parmi un ensemble discret de valeurs préspéciées. In ne, la méthode que nous avons développée répond bien à nos attentes, et permet donc de produire les inférences de façon beaucoup plus rapide. En effet, il a fallu seulement 41.298 secondes pour que cette méthode effectue les inférences, alors que 44.105 minutes ont été né- cessaires au lasso adaptatif pour l'issue. On espère que les idées développées dans ce mémoire vont contribuer signicativement à améliorer les méthodes de sélection de variables en inférence causale avec l'appui des techniques bayésiennes. / In this paper, we aim to develop a new estimation method for the outcome adaptive lasso using Bayesian machinery. The research hypothesis is that our new method will significantly reduce the computational burden of the outcome adaptive lasso. Our method uses the same theoretical foundation as the outcome adaptive lasso. It therefore meets the oracle properties. For its implementation, Bayesian propensity score model is first fitted. Next, the average treatment effect is estimated using inverse probability of treatment weights. In addition, we consider a gamma distribution for the regularisation parameter λ in order to choose this parameter over a continuous set, whereas the frequentist outcome adaptive lasso uses a cross-validation procedure that selects λ among a prespecified discrete set. In fine, the method we have developed meets our expectations, and therefore makes it possible to produce inferences much faster. Indeed, it took only 41.298 seconds for this method to yield inferences, while 44.105 minutes were required for the outcome adaptive lasso. We hope that the ideas developed in this paper will significantly contribute to improve methods for selecting variables in causal inference with the support of Bayesian techniques.
|
4 |
La corrélation appliquée dans un contexte bayésienLepage, Maude 17 April 2018 (has links)
Bien que largement utilisée, la corrélation n'est pas souvent abordée dans un contexte bayésien. À l'aide de formules simples, on calcule ici la corrélation de Pearson entre un paramètre [thêta] et son estimation bayésienne ou par la méthode du maximum de vraisemblance. Ceci nous permet alors d'examiner le comportement de la corrélation de Pearson selon la taille de l'échantillon et le choix des paramètres de la loi a priori. On compare ensuite son comportement avec celui des corrélations de Spearman, de Kendall et de Blomqvist obtenues à l'aide de simulations effectuées avec le logiciel R. Plusieurs cas sont considérés faisant notamment intervenir des lois conjuguées.
|
5 |
La performance cyclique des outils prévisionnels : le cas de la devise canadienneTremblay, Nicolas 16 April 2018 (has links)
Depuis que Meese et Rogoff [1983] ont publié leur article sur la qualité des outils prévisionnels du taux de change des années 70, découvrir le meilleur type de modèle et la spécification la plus efficace est un sujet prolifique de la littérature en économie internationale. Ce mémoire conduira une comparaison bayesienne des principales modélisations utilisées pour prédire l'évolution du taux de change. La méthodologie mise en oeuvre sera celle proposée par Geweke [1994] qui se nomme l'importance sampling. Une comparaison des densités et des vraisemblances prédictives permettra de déterminer s'il est préférable d'utiliser le vecteur autorégressif ou le modèle à correction d'erreurs pour prédire les réalisations du taux de change lors des divers états de l'économie.
|
6 |
Le processus d'évaluation des probabilités subjectivesBrouillette, Marc-Antoine 23 April 2018 (has links)
Ellsberg (1961) a été l’un des premier à démontrer que les prises de décision en ambiguïté sont mal comprises. Le manque d’informations sur les probabilités des résultats possibles affecte le comportement des individus. Dans ce genre d’environnement, certains individus ont recourt à des heuristiques afin d’évaluer les probabilités de manière subjective. Nous proposons donc un modèle empirique exprimant le processus d’évaluation et de mises à jours des croyances basé sur le théorème de Bayes. À l’aide de données expérimentales, nous avons pu estimer le modèle et ainsi dégager certains types de comportement. Nous avons, entre autre, découvert que le niveau d’ambiguïté liées aux probabilités avait un effet sur le processus d’évaluation des probabilités subjectives. Enfin, selon nos résultats, seulement 10 % des participants se sont comportés comme le prédirait la règle de Bayes, dont plusieurs autres études prennent pour acquis.
|
7 |
Stratégie de rotation sectorielle fonction des relations de causalité entre les forces économiques et boursièresWalker, David 02 February 2024 (has links)
La compréhension des interactions entre les forces économiques et boursières revêt une importance fondamentale pour les gestionnaires de portefeuille ainsi que pour les autorités monétaires. Les forces économiques exercent une influence sur les valorisations boursières, voir Chen, Roll et Ross (1986). Les taux de croissance des forces économiques et boursières sont interdépendants et leurs covariances dépendent de régimes en commun, voir Guidolin et Ono (2006), Hubrich et Telow (2014). Dans une nouvelle perspective, cette thèse considère que leurs taux de croissance évoluent en fonction de la structure causale des régimes exogènes de tendance haussière et baissière spécifiques à ces forces. Les relations de causalité qui lient leurs régimes sont découvertes par l'apprentissage de la structure et des paramètres d'un réseau bayésien. Une stratégie de rotation sectorielle consiste à moduler dans le temps les poids d'un portefeuille alloués aux secteurs boursiers, voir Chong et Phillips (2015). Le phénomène d'asymétrie de la volatilité de Black (1976) veut qu'une relation négative lie la croissance de la volatilité aux rendements boursiers. Par le biais d'un réseau bayésien, cette thèse exploite le pouvoir prévisionnel qu'exerce les régimes endogènes de volatilité d'indicateurs économique et boursier sur leurs régimes exogènes de tendance courants, connus ex post. Elle soutient qu'il est possible de construire une stratégie de rotation sectorielle profitable en exploitant le phénomène d'asymétrie de volatilité et les relations de causalité entre les forces économiques et boursières dans un problème de construction de portefeuille résolu par optimisation de scénarios. Des preuves de la surperformance d'une stratégie d'investissement active au-delà d'un indice de référence, dans un contexte d'investissement réel hors échantillon de calibration, supportent la thèse formulée. Des contributions secondaires de nature économiques et techniques sont réalisées aux fils des étapes nécessaires à la démonstration de la thèse principale. Différemment de Pagan et Sossounov (2003), un nouvel indicateur de crise et de croissance boursière, exempt de biais sectoriels, est construit à partir des phases exogènes de tendance coïncidentes à des indices de secteurs boursiers. Ces derniers sont communément regroupés en fonction de leur niveau de risque et de sensibilités à l'activité économique et à l'indice global de marché, voir Denoiseux et coll. (2017). Une méthode inédite de regroupement de secteurs est développée à partir de caractéristiques communes à leurs régimes exogènes : ils présentent des profils similaires d'association avec ceux des indicateurs économiques et leurs distributions de rendement par régime exogène disposent de propriétés uniques. La méthode usuelle de détection du phénomène d'asymétrie de la volatilité (PAV) repose sur un coefficient d'asymétrie significatif, lorsqu'intégré dans une expression GARCH de la variance conditionnelle, voir Glosten, Jagannathan et Runkle (1993). Une technique novatrice d'investigation du PAV, adaptée à des données à faible fréquence, est développée à partir de mesures d'association entre les phases endogènes à forte/faible volatilité et exogènes de tendance baissière/haussière. Le régime endogène de volatilité d'un indicateur qui satisfait au PAV constitue un indicateur avancé de son régime exogène de tendance courant. Un nouveau système d'équations est développé de manière à calibrer un modèle autorégressif, dont le terme d'erreur suit une mixture de lois normales, à partir d'un algorithme « Expected Maximization ». Ce modèle est exploité de manière à représenter les spécificités de l'anormalité des taux de croissance segmentés par régime exogène. Les corrélations des actifs se resserrent en période de recul boursier (Login et Solnik (2002)). Un algorithme est construit de manière à évaluer la segmentation optimale des corrélations, entre les taux de croissance de deux variables, parmi les combinaisons d'états de leur régime exogène. Une nouvelle procédure de sélection et de paramétrisation d'un algorithme d'apprentissage de la structure d'un réseau bayésien est développée en fonction des niveaux de risque optimaux des erreurs de type I et II, dans un contexte représentatif du problème. La procédure est utilisée afin de découvrir les liens de causalité entre les régimes de tendance et de volatilité des forces économiques et boursières. L'ensemble de ces outils permettent de modéliser dans une simulation de Monte-Carlo, la dépendance de la densité de probabilité des taux de croissance des indicateurs et de leurs corrélations aux phases exogènes de tendance, régies par un réseau bayésien dynamique.
|
8 |
Développement d'une méthode d'analyse bayésienne simultanée et multiparamétrique des spectres stellaires et son application aux spectres d'étoiles massivesMugnes, Jean-Michel 12 September 2024 (has links)
Je présente, dans cette thèse, une nouvelle méthode d’analyse des spectres stellaires, basée sur la statistique bayésienne et l’utilisation de modèles atmosphériques, que j’applique à l’étude d’un échantillon d’étoiles de type B. L’originalité de cette méthode réside dans l’analyse simultanée d’un grand nombre de raies spectrales, mais aussi dans la détermination, également simultanée, d’un nombre important de paramètres stellaires, ainsi que dans le calcul automatique d’incertitudes incluant les variations possibles de chacun des paramètres, la qualité des données et, dans une certaine mesure, les limitations du modèle théorique employé. Les principaux avantages d’une telle méthode sont l’homogénéité de ses résultats, sa robustesse face au bruit, son efficacité même à faible résolution spectrale, sa polyvalence (car elle est applicable à tous types d’étoiles et de modèles), sa simplicité d’utilisation (la méthode est largement automatisée), et sa relative rapidité d’exécution (selon le nombre de paramètres ajustés, l’analyse d’une étoile prend entre 20 secondes et 5 minutes avec un ordinateur moderne). Dans ce document, j’illustre, au travers de nombreux tests théoriques et statistiques, les performances et les capacités, mais aussi les limitations et les biais possibles de cette méthode. La comparaison des résultats que j’obtiens pour mon échantillon d’étoiles B, avec ceux d’autres groupes de recherche, est plutôt satisfaisante et me permet de mettre en avant certains défauts des méthodes traditionnelles d’analyse, mais aussi de relever deux problèmes importants propres au modèle d’atmosphère (TLUSTY) que j’utilise. Puis, avec les paramètres obtenus, je détermine l’âge, la masse et les distances des étoiles de mon échantillon, donne une estimation inédite de l’âge et de la distance de deux amas ouverts, et confirme la différence de vitesses de rotation qui existe entre les étoiles du champ et des amas. La comparaison de mes distances avec les données HIPPARCOS et les mesures d’extinction des deux amas révèle également un accord satisfaisant. Enfin, je propose des pistes d’amélioration de ma méthode et donne un exemple d’utilisation plus générale et plus en adéquation avec les observations multiobjets ou à grande échelle qui se poursuivent à l’heure actuelle. / I present, in this thesis, a new stellar spectra analysis method, based on bayesian statistics and theoretical atmopheric models, which I apply to a sample of B type stars. The originality of this method lies in the simultaneous analysis of a large number of spectral lines combined with the simultaneous determination of a large number of stellar parameters, as well as in the automatic calculation of the uncertainties. These uncertainties are linked to the possible variations of each parameter, the data quality and, to some extent, to the limitations of the theoretical model used. The main advantages of this method are the homogeneity of its results, its robustness to noise, its effectiveness even at low spectral resolution, its versatility (as it is applicable to all types of star), its ease of use (the method is largely automated), and its relatively fast execution (depending on the number of adjusted parameters, the analysis of a star takes between 20 seconds and 5 minutes with a modern computer). I show, through numerous theoretical and statistical tests, the performance and the capabilities, but also the limitations and the possible bias of this method. The comparison of the results I get for my sample of B stars, with the results from other research groups, is quite satisfactory. This comparaison also allows me to highlight some of the shortcomings of traditional analytical methods, and to address two significant issues specific to the atmosphere model that I use (TLUSTY). Next, with the parameters obtained, I determine the age, mass, and distances of my sample stars, give for the first time an estimate of the age and distance of two open clusters, and confirms the difference in rotational velocity between field and cluster stars. The comparison of my distances with the HIPPARCOS data and the published extinctions of the two clusters reveals a satisfactory agreement. Finally, I propose ways to improve my method and provide an example of a more general application in relation with modern large scale or multi-object surveys.
|
9 |
A Bayesian approach to Hybrid Choice modelsAlvarez Daziano, Ricardo 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2010-2011 / Les modèles microéconométriques de choix discrets ont pour but d’expliquer le processus du choix individuel des consommateurs parmi un ensemble limité et exhaustive d’options mutuellement exclusives. Les modèles dits de choix hybrides sont une généralisation des modèles de choix discrets standard, où des modèles indépendants plus sophistiqués sont considérés simultanément. Dans cette thèse des techniques d’estimation simultanée sont analysées et appliquées pour un modèle de choix hybride qui, sous la forme d’un système complexe d’équations structurelles généralisées, intègre à la fois des choix discrets et des variables latentes en tant que facteurs explicatifs des processus décisionnels. Ce qui motive l’étude de ce genre de modèles est que pour comprendre le processus du choix il faut incorporer des attitudes, des perceptions et des attributs qualitatifs à l’intérieur de modèles décisionnels économiques conventionnels, tout en prenant ce qui dit la recherche en sciences cognitives ainsi qu’en psychologie sociale. Quoique l’estimation du système d’équations d’un modèle de choix hybride requière l’évaluation d’intégrales multidimensionnelles complexes, on résoudre empiriquement ce problème en applicant la méthode du maximum de vraisemblance simulée. Ensuite on dérive une procédure d’échantillonnage de Gibbs pour l’estimation simultanée bayésienne du modèle qui offre des estimateurs convergents et efficaces. Ceci devient une méthode plus avantageuse comparativement aux méthodes classiques dans un cadre analytique avec un grand nombre de variables latentes. En effet, en vertu de l’approche bayésienne il suffit de considérer des régressions ordinaires pour les variables latentes. Par ailleurs, dériver les intervalles de confiance bayésiennes pour les parts de marché ainsi que pour des dispositions à payer devient trivial. De par sa grande géneralité, le modèle de choix hybride est capable de s’adapter à des situations pratiques. En particulier, la réponse des consommateurs suite à l’innovation technologique est analysée. Par exemple, on étudie les préférences pro-environnementales dans un modèle économique des décisions d’achat de véhicules verts selon lequel les consommateurs soucieux de l’environnement sont prêts à payer davantage pour des véhicules à faibles émissions, en dépit des inconvénients potentiels. En outre, en utilisant un noyau probit et des indicateurs dichotomiques on montre que des connaissances préalables ainsi que des attitudes positives envers l’adoption de nouvelles technologies favorisent l’adoption de la téléphonie IP. / Microeconometric discrete choice models aim to explain the process of individual choice by consumers among a mutually exclusive, exhaustive and finite group of alternatives. Hybrid choice models are a generalization of standard discrete choice models where independent expanded models are considered simultaneously. In my dissertation I analyze, implement, and apply simultaneous estimation techniques for a hybrid choice model that, in the form of a complex generalized structural equation model, simultaneously integrates discrete choice and latent explanatory variables, such as attitudes and qualitative attributes. The motivation behind hybrid choice models is that the key to understanding choice comes through incorporating attitudinal and perceptual data to conventional economic models of decision making, taking elements from cognitive science and social psychology. The Bayesian Gibbs sampler I derive for simultaneous estimation of hybrid choice models offers a consistent and efficient estimator that outperforms frequentist full information simulated maximum likelihood. Whereas the frequentist estimator becomes fairly complex in situations with a large choice set of interdependent alternatives with a large number of latent variables, the inclusion of latent variables in the Bayesian approach translates into adding independent ordinary regressions. I also find that when using the Bayesian estimates it is easier to consider behavioral uncertainty; in fact, I show that forecasting and deriving confidence intervals for willingness to pay measures is straightforward. Finally, I confirm the capacity of hybrid choice modeling to adapt to practical situations. In particular, I analyze consumer response to innovation. For instance, I incorporate proenvironmental preferences toward low-emission vehicles into an economic model of purchase behavior where environmentally-conscious consumers are willing to pay more for sustainable solutions despite potential drawbacks. In addition, using a probit kernel and dichotomous effect indicators I show that knowledge as well as a positive attitude toward the adoption of new technologies favor the adoption of IP telephony.
|
10 |
Bayesian nonparametric latent variable modelsDallaire, Patrick 16 December 2024 (has links)
L’un des problèmes importants en apprentissage automatique est de déterminer la complexité du modèle à apprendre. Une trop grande complexité mène au surapprentissage, ce qui correspond à trouver des structures qui n’existent pas réellement dans les données, tandis qu’une trop faible complexité mène au sous-apprentissage, c’est-à-dire que l’expressivité du modèle est insuffisante pour capturer l’ensemble des structures présentes dans les données. Pour certains modèles probabilistes, la complexité du modèle se traduit par l’introduction d’une ou plusieurs variables cachées dont le rôle est d’expliquer le processus génératif des données. Il existe diverses approches permettant d’identifier le nombre approprié de variables cachées d’un modèle. Cette thèse s’intéresse aux méthodes Bayésiennes nonparamétriques permettant de déterminer le nombre de variables cachées à utiliser ainsi que leur dimensionnalité. La popularisation des statistiques Bayésiennes nonparamétriques au sein de la communauté de l’apprentissage automatique est assez récente. Leur principal attrait vient du fait qu’elles offrent des modèles hautement flexibles et dont la complexité s’ajuste proportionnellement à la quantité de données disponibles. Au cours des dernières années, la recherche sur les méthodes d’apprentissage Bayésiennes nonparamétriques a porté sur trois aspects principaux : la construction de nouveaux modèles, le développement d’algorithmes d’inférence et les applications. Cette thèse présente nos contributions à ces trois sujets de recherches dans le contexte d’apprentissage de modèles à variables cachées. Dans un premier temps, nous introduisons le Pitman-Yor process mixture of Gaussians, un modèle permettant l’apprentissage de mélanges infinis de Gaussiennes. Nous présentons aussi un algorithme d’inférence permettant de découvrir les composantes cachées du modèle que nous évaluons sur deux applications concrètes de robotique. Nos résultats démontrent que l’approche proposée surpasse en performance et en flexibilité les approches classiques d’apprentissage. Dans un deuxième temps, nous proposons l’extended cascading Indian buffet process, un modèle servant de distribution de probabilité a priori sur l’espace des graphes dirigés acycliques. Dans le contexte de réseaux Bayésien, ce prior permet d’identifier à la fois la présence de variables cachées et la structure du réseau parmi celles-ci. Un algorithme d’inférence Monte Carlo par chaîne de Markov est utilisé pour l’évaluation sur des problèmes d’identification de structures et d’estimation de densités. Dans un dernier temps, nous proposons le Indian chefs process, un modèle plus général que l’extended cascading Indian buffet process servant à l’apprentissage de graphes et d’ordres. L’avantage du nouveau modèle est qu’il admet les connections entres les variables observables et qu’il prend en compte l’ordre des variables. Nous présentons un algorithme d’inférence Monte Carlo par chaîne de Markov avec saut réversible permettant l’apprentissage conjoint de graphes et d’ordres. L’évaluation est faite sur des problèmes d’estimations de densité et de test d’indépendance. Ce modèle est le premier modèle Bayésien nonparamétrique permettant d’apprendre des réseaux Bayésiens disposant d’une structure complètement arbitraire. / One of the important problems in machine learning is determining the complexity of the model to learn. Too much complexity leads to overfitting, which finds structures that do not actually exist in the data, while too low complexity leads to underfitting, which means that the expressiveness of the model is insufficient to capture all the structures present in the data. For some probabilistic models, the complexity depends on the introduction of one or more latent variables whose role is to explain the generative process of the data. There are various approaches to identify the appropriate number of latent variables of a model. This thesis covers various Bayesian nonparametric methods capable of determining the number of latent variables to be used and their dimensionality. The popularization of Bayesian nonparametric statistics in the machine learning community is fairly recent. Their main attraction is the fact that they offer highly flexible models and their complexity scales appropriately with the amount of available data. In recent years, research on Bayesian nonparametric learning methods have focused on three main aspects: the construction of new models, the development of inference algorithms and new applications. This thesis presents our contributions to these three topics of research in the context of learning latent variables models. Firstly, we introduce the Pitman-Yor process mixture of Gaussians, a model for learning infinite mixtures of Gaussians. We also present an inference algorithm to discover the latent components of the model and we evaluate it on two practical robotics applications. Our results demonstrate that the proposed approach outperforms, both in performance and flexibility, the traditional learning approaches. Secondly, we propose the extended cascading Indian buffet process, a Bayesian nonparametric probability distribution on the space of directed acyclic graphs. In the context of Bayesian networks, this prior is used to identify the presence of latent variables and the network structure among them. A Markov Chain Monte Carlo inference algorithm is presented and evaluated on structure identification problems and as well as density estimation problems. Lastly, we propose the Indian chefs process, a model more general than the extended cascading Indian buffet process for learning graphs and orders. The advantage of the new model is that it accepts connections among observable variables and it takes into account the order of the variables. We also present a reversible jump Markov Chain Monte Carlo inference algorithm which jointly learns graphs and orders. Experiments are conducted on density estimation problems and testing independence hypotheses. This model is the first Bayesian nonparametric model capable of learning Bayesian learning networks with completely arbitrary graph structures.
|
Page generated in 0.1205 seconds