Spelling suggestions: "subject:"modèle bibliographique"" "subject:"codèle bibliographique""
1 |
Quelques modèles de langage statistiques et graphiques lissés avec WordNetJauvin, Christian January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Modélisation et optimisation des réseaux optiques à plusieurs niveaux de granularitéGhobril, Paul 04 1900 (has links) (PDF)
La migration d'un réseau optique en anneaux interconnectés vers un réseau arbitrairement maillé et d'un trafic statique vers un trafic dynamique nécessite l'introduction de plusieurs niveaux de granularité pour s'adapter à cette diversité spatiale et temporelle et réduire ainsi la complexité et la taille des brasseurs optiques. Cette taille peut être réduite en traitant en bloc un groupe de longueurs d'onde contiguës. Cette bande d'ondes sera éventuellement traitée comme une seule entité. Par contre, ce traitement en bloc complique l'opération de routage et d'allocation de longueurs d'onde. Quelques ports d'entrée/sortie du brasseur de bandes peuvent éventuellement être connectés à des démultiplexeurs/multiplexeurs pour passer à un brassage par longueurs d'onde. De cette manière, on résout la commutation en bloc et quelques bandes pourront sortir de la continuité des tunnels établis pour passer d'un tunnel à l'autre. Cette notion peut être étendue pour couvrir différentes granularités et différents niveaux de brassage à l'aide de brasseurs optiques hiérarchiques. La coexistence des différents concepts de groupage optique et électronique ainsi que la manipulation de plusieurs niveaux et différentes échelles d'agrégation forment l'idée de base derrière ce qu'on appelle "réseau optique à plusieurs niveaux de granularité". Dans cette thèse, On propose un nouveau modèle graphique adapté au réseau optique à plusieurs niveaux de granularité. Le modèle d'un composant optique est formé par l'interconnexion d'un nombre d'éléments de base (BNE). Chaque BNE est une représentation graphique des supports du trafic. On introduit la notion de "groupes" qui permet l'abstraction des agrégateurs/désagrégateurs et définit par suite la granularité de commutation de chaque côté du BNE. Étant modulable, ce modèle pourra servir au développement d'un outil d'aide à la conception de ce type de réseaux. On propose un nouveau modèle combinatoire du brasseur hiérarchique permettant de comparer différentes réalisations matérielles. Ceci nous a permis d'étudier la réduction de la complexité du matériel et l'augmentation de la complexité opérationnelle quand on remplace un brasseur optique simple par un brasseur optique hiérarchique. On propose le nouveau concept de modifier les canaux de longueurs d'onde sans modifier l'allocation logique des longueurs d'onde et par suite, permettre un réarrangement avec un minimum d'interruptions afin d'optimiser le brassage à plusieurs granularités. Ce réarrangement est réalisé sans changer la distribution du trafic résultant du routage et de l'attribution des longueurs d'onde. On montre l'importance de la gestion des granularités et on propose une nouvelle méthode de contrôler l'allocation des multiplexeurs/démultiplexeurs dans le contexte du trafic dynamique. Dans ce contexte et en utilisant le modèle graphique, on propose de construire une topologie logique multicouche dans le but d'avoir une base d'informations adaptée à la proposition d'ingénierie de trafic. Dans cette solution, on estime la diversité potentielle d'acheminement des tunnels établis par le brassages hiérarchique en considérant une distribution de charge donnant le flot maximal. cette distribution est considérée comme objectif à atteindre et est mise à jour après tout changement. On donne aux tunnels ayant la plus grande diversité potentielle d'acheminement la priorité de passer aux fines granularités. L'ensemble des propositions est renforcé par des analyses et simulations et plusieurs domaines à aborder en perspective sont présentés en conclusion.
|
3 |
Classification du texte numérique et numérisé. Approche fondée sur les algorithmes d'apprentissage automatique / Text and Image based classification of documents using machine and representation learningSayadi, Karim 28 March 2017 (has links)
Différentes disciplines des sciences humaines telles la philologie ou la paléographie font face à des tâches complexes et fastidieuses pour l'examen des sources de données. La proposition d'approches computationnelles en humanités permet d'adresser les problématiques rencontrées telles que la lecture, l'analyse et l'archivage de façon systématique. Les modèles conceptuels élaborés reposent sur des algorithmes et ces derniers donnent lieu à des implémentations informatiques qui automatisent ces tâches fastidieuses. La première partie de la thèse vise, d'une part, à établir la structuration thématique d'un corpus, en construisant des espaces sémantiques de grande dimension. D'autre part, elle vise au suivi dynamique des thématiques qui constitue un réel défi scientifique, notamment en raison du passage à l'échelle. La seconde partie de la thèse traite de manière holistique la page d'un document numérisé sans aucune intervention préalable. Le but est d'apprendre automatiquement des représentations du trait de l'écriture ou du tracé d'un certain script par rapport au tracé d'un autre script. Il faut dans ce cadre tenir compte de l'environnement où se trouve le tracé : image, artefact, bruits dus à la détérioration de la qualité du papier, etc. Notre approche propose un empilement de réseaux de neurones auto-encodeurs afin de fournir une représentation alternative des données reçues en entrée. / Different disciplines in the humanities, such as philology or palaeography, face complex and time-consuming tasks whenever it comes to examining the data sources. The introduction of computational approaches in humanities makes it possible to address issues such as semantic analysis and systematic archiving. The conceptual models developed are based on algorithms that are later hard coded in order to automate these tedious tasks. In the first part of the thesis we propose a novel method to build a semantic space based on topics modeling. In the second part and in order to classify historical documents according to their script. We propose a novel representation learning method based on stacking convolutional auto-encoder. The goal is to automatically learn plot representations of the script or the written language.
|
4 |
Réseau bayésien dynamique hybride : application à la modélisation de la fiabilité de systèmes à espaces d'états discrets / hybrid dynamic bayesian network : application to reliability modeling of discrete state spaces systemsPetiet, Florence 01 July 2019 (has links)
L'analyse de fiabilité fait partie intégrante de la conception et du fonctionnement du système, en particulier pour les systèmes exécutant des applications critiques. Des travaux récents ont montré l'intérêt d'utiliser les réseaux bayésiens dans le domaine de la fiabilité, pour modélisation la dégradation d'un système. Les modèles graphiques de durée sont un cas particulier des réseaux bayésiens, qui permettent de s'affranchir de la propriété markovienne des réseaux bayésiens dynamiques. Ils s'adaptent aux systèmes dont le temps de séjour dans chaque état n'est pas nécessairement distribué exponentiellement, comme c'est le cas dans la plupart des applications industrielles. Des travaux antérieurs ont toutefois montré des limitations à ces modèles en terme de capacité de stockage et de temps de calcul, en raison du caractère discret de la variable temps de séjour. Une solution pourrait consister à considérer une variable de durée continue. Selon les avis d'experts, les variables de temps de séjour suivent une distribution de Weibull dans de nombreux systèmes. L'objectif de la thèse est d'intégrer des variables de temps de séjour suivant une distribution de Weibull dans un modèle de durée graphique en proposant une nouvelle approche. Après une présentation des réseaux bayésiens, et plus particulièrement des modèles graphiques de durée et leur limitation, ce rapport s'attache à présenter le nouveau modèle permettant la modélisation du processus de dégradation. Ce nouveau modèle est appelé modèle graphique de durée hybride Weibull. Un algorithme original permettant l'inférence dans un tel réseau a été mis en place. L'étape suivante a été la validation de l'approche. Ne disposant pas de données, il a été nécessaire de simuler des séquences d'états du système. Différentes bases de données ainsi construites ont permis d'apprendre d'un part un modèle graphique de durée, et d'autre part un modèle graphique de durée hybride-Weibull, afin de les comparer, que ce soit en terme de qualité d’apprentissage, de qualité d’inférence, de temps de calcul, et de capacité de stockage / Reliability analysis is an integral part of system design and operation, especially for systems running critical applications. Recent works have shown the interest of using Bayesian Networks in the field of reliability, for modeling the degradation of a system. The Graphical Duration Models are a specific case of Bayesian Networks, which make it possible to overcome the Markovian property of dynamic Bayesian Networks. They adapt to systems whose sojourn-time in each state is not necessarily exponentially distributed, which is the case for most industrial applications. Previous works, however, have shown limitations in these models in terms of storage capacity and computing time, due to the discrete nature of the sojourn time variable. A solution might be to allow the sojourn time variable to be continuous. According to expert opinion, sojourn time variables follow a Weibull distribution in many systems. The goal of this thesis is to integrate sojour time variables following a Weibull distribution in a Graphical Duration Model by proposing a new approach. After a presentation of the Bayesian networks, and more particularly graphical duration models, and their limitations, this report focus on presenting the new model allowing the modeling of the degradation process. This new model is called Weibull Hybrid Graphical Duration Model. An original algorithm allowing inference in such a network has been deployed. Various so built databases allowed to learn on one hand a Graphical Duration Model, and on an other hand a Graphical Duration Model Hybrid - Weibull, in order to compare them, in term of learning quality, of inference quality, of compute time, and of storage space
|
5 |
Classification et inférence de réseaux pour les données RNA-seq / Clustering and network inference for RNA-seq dataGallopin, Mélina 09 December 2015 (has links)
Cette thèse regroupe des contributions méthodologiques à l'analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de travaux de cette thèse porte sur la classification à l'aide de modèle de mélange. L'objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l'aide d'un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. Une seconde partie de travaux de cette thèse porte sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Nous proposons un modèle d'inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d'inférence de réseau nécessitent un nombre d'échantillons élevé.Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien. / This thesis gathers methodologicals contributions to the statistical analysis of next-generation high-throughput transcriptome sequencing data (RNA-seq). RNA-seq data are discrete and the number of samples sequenced is usually small due to the cost of the technology. These two points are the main statistical challenges for modelling RNA-seq data.The first part of the thesis is dedicated to the co-expression analysis of RNA-seq data using model-based clustering. A natural model for discrete RNA-seq data is a Poisson mixture model. However, a Gaussian mixture model in conjunction with a simple transformation applied to the data is a reasonable alternative. We propose to compare the two alternatives using a data-driven criterion to select the model that best fits each dataset. In addition, we present a model selection criterion to take into account external gene annotations. This model selection criterion is not specific to RNA-seq data. It is useful in any co-expression analysis using model-based clustering designed to enrich functional annotation databases.The second part of the thesis is dedicated to network inference using graphical models. The aim of network inference is to detect relationships among genes based on their expression. We propose a network inference model based on a Poisson distribution taking into account the discrete nature and high inter sample variability of RNA-seq data. However, network inference methods require a large number of samples. For Gaussian graphical models, we propose a non-asymptotic approach to detect relevant subsets of genes based on a block-diagonale decomposition of the covariance matrix. This method is not specific to RNA-seq data and reduces the dimension of any network inference problem based on the Gaussian graphical model.
|
6 |
A statistical modeling framework for analyzing tree-indexed data : application to plant development on microscopic and macroscopic scales / Un cadre de modélisation statistique pour l'analyse de données indexées par des arborescencesFernique, Pierre 10 December 2014 (has links)
Nous nous intéressons à des modèles statistiques pour les données indexées par des arborescences. Dans le contexte de l'équipe Virtual Plants, équipe hôte de cette thèse, les applications d'intérêt portent sur le développement de la plante et sa modulation par des facteurs environnementaux et génétiques. Nous nous restreignons donc à des applications issues du développement de la plante, à la fois au niveau microscopique avec l'étude de la lignée cellulaire du tissu biologique servant à la croissance des plantes, et au niveau macroscopique avec le mécanisme de production de branches. Le catalogue de modèles disponibles pour les données indexées par des arborescences est beaucoup moins important que celui disponible pour les données indexées par des chemins. Cette thèse vise donc à proposer un cadre de modélisation statistique pour l'étude de patterns pour données indexées par des arborescences. À cette fin, deux classes différentes de modèles statistiques, les modèles de Markov et de détection de ruptures, sont étudiées. / We address statistical models for tree-indexed data.Tree-indexed data can be seen as a generalization of path-indexed data since directed path graphs are directed tree graphs where there is at most one child per vertex.In the context of the Virtual Plants team, host team of this thesis, applications of interest focus on plant development and its modulation by environmental and genetic factors.We thus focus on plant developmental applications, both at the microscopic level with the study of the cell lineage in the biological tissue responsible for the plant growth, and at the macroscopic level with the mechanism of production of branches. The catalog of models available for tree-indexed data is far less important than the one available for path-indexed data.This thesis therefore aims at proposing a statistical modeling framework for studying patterns in tree-indexed data.To this end, two different classes of statistical models, Markov and change-point models, are investigated.
|
7 |
Observations probabilistes dans les réseaux bayésiens / Probabilistic evidence in bayesian networksBen Mrad, Ali 20 June 2015 (has links)
Dans un réseau bayésien, une observation sur une variable signifie en général que cette variable est instanciée. Ceci signifie que l’observateur peut affirmer avec certitude que la variable est dans l’état signalé. Cette thèse porte sur d’autres types d’observations, souvent appelées observations incertaines, qui ne peuvent pas être représentées par la simple affectation de la variable. Cette thèse clarifie et étudie les différents concepts d’observations incertaines et propose différentes applications des observations incertaines dans les réseaux bayésiens.Nous commençons par dresser un état des lieux sur les observations incertaines dans les réseaux bayésiens dans la littérature et dans les logiciels, en termes de terminologie, de définition, de spécification et de propagation. Il en ressort que le vocabulaire n'est pas clairement établi et que les définitions proposées couvrent parfois des notions différentes.Nous identifions trois types d’observations incertaines dans les réseaux bayésiens et nous proposons la terminologie suivante : observation de vraisemblance, observation probabiliste fixe et observation probabiliste non-fixe. Nous exposons ensuite la façon dont ces observations peuvent être traitées et propagées.Enfin, nous donnons plusieurs exemples d’utilisation des observations probabilistes fixes dans les réseaux bayésiens. Le premier exemple concerne la propagation d'observations sur une sous-population, appliquée aux systèmes d'information géographique. Le second exemple concerne une organisation de plusieurs agents équipés d'un réseau bayésien local et qui doivent collaborer pour résoudre un problème. Le troisième exemple concerne la prise en compte d'observations sur des variables continues dans un RB discret. Pour cela, l'algorithme BN-IPFP-1 a été implémenté et utilisé sur des données médicales de l'hôpital Bourguiba de Sfax. / In a Bayesian network, evidence on a variable usually signifies that this variable is instantiated, meaning that the observer can affirm with certainty that the variable is in the signaled state. This thesis focuses on other types of evidence, often called uncertain evidence, which cannot be represented by the simple assignment of the variables. This thesis clarifies and studies different concepts of uncertain evidence in a Bayesian network and offers various applications of uncertain evidence in Bayesian networks.Firstly, we present a review of uncertain evidence in Bayesian networks in terms of terminology, definition, specification and propagation. It shows that the vocabulary is not clear and that some terms are used to represent different concepts.We identify three types of uncertain evidence in Bayesian networks and we propose the followingterminology: likelihood evidence, fixed probabilistic evidence and not-fixed probabilistic evidence. We define them and describe updating algorithms for the propagation of uncertain evidence. Finally, we propose several examples of the use of fixed probabilistic evidence in Bayesian networks. The first example concerns evidence on a subpopulation applied in the context of a geographical information system. The second example is an organization of agent encapsulated Bayesian networks that have to collaborate together to solve a problem. The third example concerns the transformation of evidence on continuous variables into fixed probabilistic evidence. The algorithm BN-IPFP-1 has been implemented and used on medical data from CHU Habib Bourguiba in Sfax.
|
8 |
Contributions au développement d'outils computationnels de design de protéine : méthodes et algorithmes de comptage avec garantie / Contribution to protein design tools : counting methods and algorithmsViricel, Clement 18 December 2017 (has links)
Cette thèse porte sur deux sujets intrinsèquement liés : le calcul de la constante de normalisation d’un champ de Markov et l’estimation de l’affinité de liaison d’un complexe de protéines. Premièrement, afin d’aborder ce problème de comptage #P complet, nous avons développé Z*, basé sur un élagage des quantités de potentiels négligeables. Il s’est montré plus performant que des méthodes de l’état de l’art sur des instances issues d’interaction protéine-protéine. Par la suite, nous avons développé #HBFS, un algorithme avec une garantie anytime, qui s’est révélé plus performant que son prédécesseur. Enfin, nous avons développé BTDZ, un algorithme exact basé sur une décomposition arborescente qui a fait ses preuves sur des instances issues d’interaction intermoléculaire appelées “superhélices”. Ces algorithmes s’appuient sur des méthodes issuse des modèles graphiques : cohérences locales, élimination de variable et décompositions arborescentes. A l’aide de méthodes d’optimisation existantes, de Z* et des fonctions d’énergie de Rosetta, nous avons développé un logiciel open source estimant la constante d’affinité d’un complexe protéine protéine sur une librairie de mutants. Nous avons analysé nos estimations sur un jeu de données de complexes de protéines et nous les avons confronté à deux approches de l’état de l’art. Il en est ressorti que notre outil était qualitativement meilleur que ces méthodes. / This thesis is focused on two intrinsically related subjects : the computation of the normalizing constant of a Markov random field and the estimation of the binding affinity of protein-protein interactions. First, to tackle this #P-complete counting problem, we developed Z*, based on the pruning of negligible potential quantities. It has been shown to be more efficient than various state-of-the-art methods on instances derived from protein-protein interaction models. Then, we developed #HBFS, an anytime guaranteed counting algorithm which proved to be even better than its predecessor. Finally, we developed BTDZ, an exact algorithm based on tree decomposition. BTDZ has already proven its efficiency on intances from coiled coil protein interactions. These algorithms all rely on methods stemming from graphical models : local consistencies, variable elimination and tree decomposition. With the help of existing optimization algorithms, Z* and Rosetta energy functions, we developed a package that estimates the binding affinity of a set of mutants in a protein-protein interaction. We statistically analyzed our esti- mation on a database of binding affinities and confronted it with state-of-the-art methods. It appears that our software is qualitatively better than these methods.
|
9 |
Analyse temporelle et sémantique des réseaux sociaux typés à partir du contenu de sites généré par des utilisateurs sur le Web / Temporal and semantic analysis of richly typed social networks from user-generated content sites on the webMeng, Zide 07 November 2016 (has links)
Nous proposons une approche pour détecter les sujets, les communautés d'intérêt non disjointes,l'expertise, les tendances et les activités dans des sites où le contenu est généré par les utilisateurs et enparticulier dans des forums de questions-réponses tels que StackOverFlow. Nous décrivons d'abordQASM (Questions & Réponses dans des médias sociaux), un système basé sur l'analyse de réseauxsociaux pour gérer les deux principales ressources d’un site de questions-réponses: les utilisateurs et lecontenu. Nous présentons également le vocabulaire QASM utilisé pour formaliser à la fois le niveaud'intérêt et l'expertise des utilisateurs. Nous proposons ensuite une approche efficace pour détecter lescommunautés d'intérêts. Elle repose sur une autre méthode pour enrichir les questions avec un tag plusgénéral en cas de besoin. Nous comparons trois méthodes de détection sur un jeu de données extrait dusite populaire StackOverflow. Notre méthode basée sur le se révèle être beaucoup plus simple et plusrapide, tout en préservant la qualité de la détection. Nous proposons en complément une méthode pourgénérer automatiquement un label pour un sujet détecté en analysant le sens et les liens de ses mots-clefs.Nous menons alors une étude pour comparer différents algorithmes pour générer ce label. Enfin, nousétendons notre modèle de graphes probabilistes pour modéliser conjointement les sujets, l'expertise, lesactivités et les tendances. Nous le validons sur des données du monde réel pour confirmer l'efficacité denotre modèle intégrant les comportements des utilisateurs et la dynamique des sujets / We propose an approach to detect topics, overlapping communities of interest, expertise, trends andactivities in user-generated content sites and in particular in question-answering forums such asStackOverFlow. We first describe QASM (Question & Answer Social Media), a system based on socialnetwork analysis to manage the two main resources in question-answering sites: users and contents. Wealso introduce the QASM vocabulary used to formalize both the level of interest and the expertise ofusers on topics. We then propose an efficient approach to detect communities of interest. It relies onanother method to enrich questions with a more general tag when needed. We compared threedetection methods on a dataset extracted from the popular Q&A site StackOverflow. Our method basedon topic modeling and user membership assignment is shown to be much simpler and faster whilepreserving the quality of the detection. We then propose an additional method to automatically generatea label for a detected topic by analyzing the meaning and links of its bag of words. We conduct a userstudy to compare different algorithms to choose the label. Finally we extend our probabilistic graphicalmodel to jointly model topics, expertise, activities and trends. We performed experiments with realworlddata to confirm the effectiveness of our joint model, studying the users’ behaviors and topicsdynamics
|
10 |
Apprentissage statistique avec le processus ponctuel déterminantalVicente, Sergio 02 1900 (has links)
Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture
la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice
de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires
et donc moins susceptibles de figurer dans un même sous-ensemble. Contrairement à la sélection
aléatoire uniforme, ce processus ponctuel privilégie les sous-ensembles qui contiennent
des points diversifiés et hétérogènes. La notion de diversité acquiert une importante grandissante
au sein de sciences comme la médecine, la sociologie, les sciences forensiques et les
sciences comportementales. Le processus ponctuel déterminantal offre donc une alternative
aux traditionnelles méthodes d’échantillonnage en tenant compte de la diversité des éléments
choisis. Actuellement, il est déjà très utilisé en apprentissage automatique comme modèle de
sélection de sous-ensembles. Son application en statistique est illustrée par trois articles. Le
premier article aborde le partitionnement de données effectué par un algorithme répété un
grand nombre de fois sur les mêmes données, le partitionnement par consensus. On montre
qu’en utilisant le processus ponctuel déterminantal pour sélectionner les points initiaux de
l’algorithme, la partition de données finale a une qualité supérieure à celle que l’on obtient
en sélectionnant les points de façon uniforme. Le deuxième article étend la méthodologie
du premier article aux données ayant un grand nombre d’observations. Ce cas impose un
effort computationnel additionnel, étant donné que la sélection de points par le processus
ponctuel déterminantal passe par la décomposition spectrale de la matrice de similarité qui,
dans ce cas-ci, est de grande taille. On présente deux approches différentes pour résoudre ce
problème. On montre que les résultats obtenus par ces deux approches sont meilleurs que
ceux obtenus avec un partitionnement de données basé sur une sélection uniforme de points.
Le troisième article présente le problème de sélection de variables en régression linéaire et
logistique face à un nombre élevé de covariables par une approche bayésienne. La sélection
de variables est faite en recourant aux méthodes de Monte Carlo par chaînes de Markov,
en utilisant l’algorithme de Metropolis-Hastings. On montre qu’en choisissant le processus
ponctuel déterminantal comme loi a priori de l’espace des modèles, le sous-ensemble final de
variables est meilleur que celui que l’on obtient avec une loi a priori uniforme. / This thesis presents the determinantal point process, a probabilistic model that captures
repulsion between points of a certain space. This repulsion is encompassed by a similarity
matrix, the kernel matrix, which selects which points are more similar and then less likely to
appear in the same subset. This point process gives more weight to subsets characterized by
a larger diversity of its elements, which is not the case with the traditional uniform random
sampling. Diversity has become a key concept in domains such as medicine, sociology,
forensic sciences and behavioral sciences. The determinantal point process is considered
a promising alternative to traditional sampling methods, since it takes into account the
diversity of selected elements. It is already actively used in machine learning as a subset
selection method. Its application in statistics is illustrated with three papers. The first
paper presents the consensus clustering, which consists in running a clustering algorithm
on the same data, a large number of times. To sample the initials points of the algorithm,
we propose the determinantal point process as a sampling method instead of a uniform
random sampling and show that the former option produces better clustering results. The
second paper extends the methodology developed in the first paper to large-data. Such
datasets impose a computational burden since sampling with the determinantal point process
is based on the spectral decomposition of the large kernel matrix. We introduce two methods
to deal with this issue. These methods also produce better clustering results than consensus
clustering based on a uniform sampling of initial points. The third paper addresses the
problem of variable selection for the linear model and the logistic regression, when the
number of predictors is large. A Bayesian approach is adopted, using Markov Chain Monte
Carlo methods with Metropolis-Hasting algorithm. We show that setting the determinantal
point process as the prior distribution for the model space selects a better final model than
the model selected by a uniform prior on the model space.
|
Page generated in 0.0521 seconds