Global ETD Search

51	Modèles à facteurs latents pour les études d'association écologique en génétique des populations / Latent factor models for ecological association studies in population genetics Frichot, Eric 26 September 2014 (has links) Nous introduisons un ensemble de modèles à facteurs latents dédié à la génomique du paysage et aux tests d'associations écologiques. Cela comprend des méthodes statistiques pour corriger des effets d'autocorrélation spatiale sur les cartes de composantes principales en génétique des populations (spFA), des méthodes pour estimer rapidement et efficacement les coefficients de métissage individuel à partir de matrices de génotypes de grande taille et évaluer le nombre de populations ancestrales (sNMF) et des méthodes pour identifier les polymorphismes génétiques qui montrent de fortes corrélations avec des gradients environnementaux ou avec des variables utilisées comme des indicateurs pour des pressions écologiques (LFMM). Nous avons aussi développé un ensemble de logiciels libres associés à ces méthodes, basés sur des programmes optimisés en C qui peuvent passer à l'échelle avec la dimension de très grand jeu de données, afin d'effectuer des analyses de structures de population et des cribles génomiques pour l'adaptation locale. / We introduce a set of latent factor models dedicated to landscape genomics and ecological association tests. It includes statistical methods for correcting principal component maps for effects of spatial autocorrelation (spFA); methods for estimating ancestry coefficients from large genotypic matrices and evaluating the number of ancestral populations (sNMF); and methods for identifying genetic polymorphisms that exhibit high correlation with some environmental gradient or with the variables used as proxies for ecological pressures (LFMM). We also developed a set of open source softwares associated with the methods, based on optimized C programs that can scale with the dimension of very large data sets, to run analyses of population structure and genome scans for local adaptation. Modèles à facteurs latents Adaptation locale Structure génétique des populations Séquencage haut-debit Statistiques bayésiennes Apprentissage Latent factor models Local adaptation Population genetic structure Next generation Sequencing Bayesian statistics Machine learning 610 510
52	Uncertainty in radar emitter classification and clustering / Gestion des incertitudes en identification des modes radar Revillon, Guillaume 18 April 2019 (has links) En Guerre Electronique, l’identification des signaux radar est un atout majeur de la prise de décisions tactiques liées au théâtre d’opérations militaires. En fournissant des informations sur la présence de menaces, la classification et le partitionnement des signaux radar ont alors un rôle crucial assurant un choix adapté des contre-mesures dédiées à ces menaces et permettant la détection de signaux radar inconnus pour la mise à jour des bases de données. Les systèmes de Mesures de Soutien Electronique enregistrent la plupart du temps des mélanges de signaux radar provenant de différents émetteurs présents dans l’environnement électromagnétique. Le signal radar, décrit par un motif de modulations impulsionnelles, est alors souvent partiellement observé du fait de mesures manquantes et aberrantes. Le processus d’identification se fonde sur l’analyse statistique des paramètres mesurables du signal radar qui le caractérisent tant quantitativement que qualitativement. De nombreuses approches mêlant des techniques de fusion de données et d’apprentissage statistique ont été développées. Cependant, ces algorithmes ne peuvent pas gérer les données manquantes et des méthodes de substitution de données sont requises afin d’utiliser ces derniers. L’objectif principal de cette thèse est alors de définir un modèle de classification et partitionnement intégrant la gestion des valeurs aberrantes et manquantes présentes dans tout type de données. Une approche fondée sur les modèles de mélange de lois de probabilités est proposée dans cette thèse. Les modèles de mélange fournissent un formalisme mathématique flexible favorisant l’introduction de variables latentes permettant la gestion des données aberrantes et la modélisation des données manquantes dans les problèmes de classification et de partionnement. L’apprentissage du modèle ainsi que la classification et le partitionnement sont réalisés dans un cadre d’inférence bayésienne où une méthode d’approximation variationnelle est introduite afin d’estimer la loi jointe a posteriori des variables latentes et des paramètres. Des expériences sur diverses données montrent que la méthode proposée fournit de meilleurs résultats que les algorithmes standards. / In Electronic Warfare, radar signals identification is a supreme asset for decision making in military tactical situations. By providing information about the presence of threats, classification and clustering of radar signals have a significant role ensuring that countermeasures against enemies are well-chosen and enabling detection of unknown radar signals to update databases. Most of the time, Electronic Support Measures systems receive mixtures of signals from different radar emitters in the electromagnetic environment. Hence a radar signal, described by a pulse-to-pulse modulation pattern, is often partially observed due to missing measurements and measurement errors. The identification process relies on statistical analysis of basic measurable parameters of a radar signal which constitute both quantitative and qualitative data. Many general and practical approaches based on data fusion and machine learning have been developed and traditionally proceed to feature extraction, dimensionality reduction and classification or clustering. However, these algorithms cannot handle missing data and imputation methods are required to generate data to use them. Hence, the main objective of this work is to define a classification/clustering framework that handles both outliers and missing values for any types of data. Here, an approach based on mixture models is developed since mixture models provide a mathematically based, flexible and meaningful framework for the wide variety of classification and clustering requirements. The proposed approach focuses on the introduction of latent variables that give us the possibility to handle sensitivity of the model to outliers and to allow a less restrictive modelling of missing data. A Bayesian treatment is adopted for model learning, supervised classification and clustering and inference is processed through a variational Bayesian approximation since the joint posterior distribution of latent variables and parameters is untractable. Some numerical experiments on synthetic and real data show that the proposed method provides more accurate results than standard algorithms. Traitement du signal en radar Méthodes bayésiennes Incertitude Émetteurs radar Classification Partitionnement Valeurs aberrantes Données manquantes Modèles de mélange Signal processing Bayesian methods Uncertainty Radar emitter Classification Clustering Outliers Missing data Mixture models
53	Analyse et modélisation de l'effet de l'Interleukine 7 chez les patients infectés par le VIH / Analysing and modeling the effect of interleukin 7 in HIV-infected patients Villain, Laura 13 December 2018 (has links) Chez les patients infectés par le VIH, les traitements antirétroviraux empêchent la réplicationvirale, ce qui est suivi, dans la plupart des cas, par une restauration de la population des lymphocytesT CD4+ (CD4). Néanmoins ce n’est pas le cas pour certains patients appelés patients àfaible réponse immunitaire. Des injections d’interleukine-7 (IL7) exogène, une cytokine impliquéedans l’homéostasie des CD4, sont considérées afin de maintenir les taux de CD4 au-dessus de500 cellules par μL, taux au-dessus duquel les patients ont une espérance de vie comparable auxpersonnes non infectées par le VIH. Les essais INSPIRE ont évalué l’effet d’injections répétéesd’IL7 chez les patients à faible réponse immunologique.Nous présentons plusieurs modèles mécanistes de l’effet des injections d’IL7 sur les CD4, quiincluent des effets aléatoires afin de tenir compte de la variabilité inter-individuelle. En utilisantces modèles avec une approche Bayésienne, les paramètres individuels d’un nouveau patient sontéchantillonnés, ce qui nous permet de faire des prédictions sur sa dynamique de CD4 et donc depersonnaliser le traitement. Nous proposons quatre protocoles adaptatifs permettant de limiter letemps passé sous 500 CD4 par μL, sans pour autant augmenter le nombre d’injections. Ces protocolesont été implémentés dans une application Shiny présentant une interface facile d’utilisation,et pourront être testés lors d’essais cliniques.Le réservoir viral, principalement constitué de CD4 quiescentes infectées, est la première barrièreà l’éradication du VIH. Les injections d’IL7 entrainent une augmentation du nombre deCD4 et donc du réservoir viral ; la question est alors de savoir si les injections provoquent denouvelles infections cellulaires ou si le réservoir augmente de la même façon que les CD4. Nousconcluons que si quelques patients ont présenté des dynamiques de marqueurs compatibles avecla survenue de nouvelles infections de cellules, ce n’est pas le cas de la majorité des patients. Laconfirmation de ces phénomènes et la caractérisation de potentiels patients à risque nécessite desdonnées supplémentaires mesurables dans un essai clinique. / In HIV infected patients, antiretroviral therapy suppresses the viral replication which is followedin most patients by a restoration of the CD4+ T cells (CD4) pool. However, it is not the case forsome patients called low immunological responders. Injections of interleukin-7 (IL7), a cytokineinvolved in the CD4 homeostasis, are considered in order to maintain the CD4 levels above 500cells per μL, the level at which life expectancy is similar to that of the non-infected. INSPIREtrials evaluated the effect of repeated injections of IL7 on low immunological responders.We present a few mechanistic models of the effect of IL7 injections on CD4, which includerandom effects to account for inter-individual variability. Using these models with a Bayesianapproach, the individual parameters of a new patient are sampled, which allows us to makepredictions about its CD4 dynamics and thus to personalize the treatment. We propose fouradaptive protocols that limit the time spent under 500 CD4 per μL, without increasing thenumber of injections. Those protocols are implemented into a Shiny app with an easy to useinterface, and they could be tested during clinical trials.The viral reservoir, mainly made up of quiescent infected CD4, is the main obstacle to HIVeradication. IL7 injections induce an increase of the level of CD4, hence of the viral reservoir ; thequestion is then to determine if the injections induce new cell infections or if the reservoir increasesin the same way as CD4. We conclude that while some patients presented marker dynamicsconsistent with the occurrence of new cell infections, this is not the case for the majority ofpatients. Confirmation of these events and characterization of potential at-risk patients requiresadditional measurable data in a clinical trial. VIH Approches bayésiennes Interleukine 7 Modèles mécanistes Equations différentielles ordinaires Protocoles adaptifs Réservoir viral Modèles linéaires mixtes HIV Mechanistic modelling Interleukine 7 Bayesian approaches Ordinary differential equations Adaptative s protocols Viral reservoir Linear mixed models
54	Estimation de la loi du milieu d'une marche aléatoire en milieu aléatoire / Estimation of the environment distribution of a random walk in random environment Havet, Antoine 19 August 2019 (has links) Introduit dans les années 1960, le modèle de la marche aléatoire en milieu aléatoire i.i.d. sur les entiers relatifs (ou MAMA) a récemment été l'objet d'un regain d'intérêt dans la communauté statistique.Divers travaux se sont en particulier intéressés à la question de l'estimation de la loi du milieu à partir de l'observation d'une unique trajectoire de la MAMA.Cette thèse s'inscrit dans cette dynamique.Dans un premier temps, nous considérons le problème d'estimation d'un point de vue fréquentiste. Lorsque la MAMA est transiente à droite ou récurrente, nous construisons le premier estimateur non paramétrique de la densité de la loi du milieu et obtenons une majoration du risque associé mesuré en norme infinie.Dans un deuxième temps, nous envisageons le problème d'estimation sous un angle Bayésien. Lorsque la MAMA est transiente à droite, nous démontrons la consistance à posteriori de l'estimateur Bayésien de la loi du milieu.La principale difficulté mathématique de la thèse a été l'élaboration des outils nécessaires à la preuve du résultat de consistance bayésienne.Nous démontrons pour cela une version quantitative de l'inégalité de concentration de type Mac Diarmid pour chaînes de Markov.Nous étudions également le temps de retour en 0 d'un processus de branchement en milieu aléatoire avec immigration. Nous montrons l'existence d'un moment exponentiel fini uniformément valable sur une classe de processus de branchement en milieu aléatoire. Le processus de branchement en milieu aléatoire constituant une chaîne de Markov, ce résultat permet alors d'expliciter la dépendance des constantes de l'inégalité de concentration en fonction des caractéristiques de ce processus. / Introduced in the 1960s, the model of random walk in i.i.d. environment on integers (or RWRE) raised only recently interest in the statistical community. Various works have in particular focused on the estimation of the environment distribution from a single trajectory of the RWRE.This thesis extends the advances made in those works and offers new approaches to the problem.First, we consider the estimation problem from a frequentist point of view. When the RWRE is transient to the right or recurrent, we build the first non-parametric estimator of the density of the environment distribution and obtain an upper-bound of the associated risk in infinite norm.Then, we consider the estimation problem from a Bayesian perspective. When the RWRE is transient to the right, we prove the posterior consistency of the Bayesian estimator of the environment distribution.The main difficulty of the thesis was to develop the tools necessary to the proof of Bayesian consistency.For this purpose, we demonstrate a quantitative version of a Mac Diarmid's type concentration inequality for Markov chains.We also study the return time to 0 of a branching process with immigration in random environment (or BPIRE). We show the existence of a finite exponential moment uniformly valid on a class of BPIRE. The BPIRE being a Markov chain, this result enables then to make explicit the dependence of the constants of the concentration inequality with respect to the characteristics of the BPIRE. Milieu aléatoire Chaînes de Markov Statistiques bayésiennes Estimation non-Paramétrique de loi Problème inverse non-Linéaire Random environment Markov chains Bayesian statistics Non-Parametric estimation Concentration for Markov chains Non-Linear inverse problems 519.5
55	Reconstruction de profils protéiques pour la recherche de biomarqueurs / Reconstruction of proteomic profiles for biomarker discovery Szacherski, Pascal 21 December 2012 (has links) Cette thèse préparée au CEA Leti, Minatec Campus, Grenoble, et à l’IMS, Bordeaux, s’inscrit dans le thème du traitement de l’information pour des données protéomiques. Nous cherchons à reconstruire des profils protéiques à partir des données issues de chaînes d’analyse complexes associant chromatographie liquide et spectrométrie de masse. Or, les signaux cibles sont des mesures de traces peptidiques qui sont de faible niveau dans un environnement très complexe et perturbé. Ceci nous a conduits à étudier des outils statistiques adaptés. Ces perturbations peuvent provenir des instruments de mesure (variabilité technique) ou des individus (variabilité biologique). Le modèle hiérarchique de l’acquisition des données permet d’inclure ces variabilités explicitement dans la modélisation probabiliste directe. La mise en place d’une méthodologie problèmes inverses permet ensuite d’estimer les grandeurs d’intérêt. Dans cette thèse, nous avons étudié trois types de problèmes inverses associés aux opérations suivantes: 1. la quantification de protéines cibles, vue comme l’estimation de la concentration protéique, 2. l’apprentissage supervisé à partir d’une cohorte multi-classe, vu comme l’estimation des paramètres des classes, et 3. la classification à partir des connaissances sur les classes, vue comme l’estimation de la classe à laquelle appartient un nouvel échantillon.La résolution des problèmes inverses se fait dans le cadre des méthodes statistiques bayésiennes, en ayant recours pour les calculs numériques aux méthodes d’échantillonnage stochastique (Monte Carlo Chaîne de Markov). / This thesis has been prepared at the CEA Leti, Minatec Campus, (Grenoble, France) and the IMS (Bordeaux, France) in the context of information and signal processing of proteomic data. The aim is to reconstruct the proteomic profile from the data provided by complex analytical workflow combining a spectrometer and a chromatograph. The signals are measurements of peptide traces which have low amplitude within a complex and noisy background. Therefore, adapted statistical signal processing methods are required. The uncertainty can be of technical nature (instruments, measurements) or of biological nature (individuals, “patients”). A hierarchical model, describing the forward problem of data acquisition, allows for includingexplicitly those variability sources within the probabilistic model. The use of the inverse problem methodology, finally, leads us to the estimation of the parameters of interest. In this thesis, we have studied three types of inverse problems for the following applications:1. quantification of targeted proteins, seen as estimation of the protein concentration,2. supervised training from a labelled cohort, seen as estimation of distribution parameters for each class,3. classification given the knowledge about the classes, seen as estimation of the class a biological sample belongs to.We solve these inverse problems within a Bayesian framework, resorting to stochastic sampling methods (Monte Carlo Markov Chain) for computation. Problème inverse Modèles hiérarchiques Méthodes statistiques bayésiennes Mcmc Gibbs Classification Apprentissage Quantification Protéomique Protéines Peptides Fragments Transitions Spectrométrie de masse Full-MS Selected Reaction Monitoring Chromatographie Inverse problem Hierarchical models Bayesian statistical methods Mcmc Gibbs Classification Statistical learning Quantification Proteomics Proteins Peptides Fragments Transitions Mass-spectrometry Full-MS Selected Reaction Monitoring Chromatography
56	Experimental identification of physical thermal models for demand response and performance evaluation / Identification expérimentale des modèles thermiques physiques pour la commande et la mesure des performances énergétiques Raillon, Loic 16 May 2018 (has links) La stratégie de l’Union Européenne pour atteindre les objectifs climatiques, est d’augmenter progressivement la part d’énergies renouvelables dans le mix énergétique et d’utiliser l’énergie plus efficacement de la production à la consommation finale. Cela implique de mesurer les performances énergétiques du bâtiment et des systèmes associés, indépendamment des conditions climatiques et de l’usage, pour fournir des solutions efficaces et adaptées de rénovation. Cela implique également de connaître la demande énergétique pour anticiper la production et le stockage d’énergie (mécanismes de demande et réponse). L’estimation des besoins énergétiques et des performances énergétiques des bâtiments ont un verrou scientifique commun : l’identification expérimentale d’un modèle physique du comportement intrinsèque du bâtiment. Les modèles boîte grise, déterminés d’après des lois physiques et les modèles boîte noire, déterminés heuristiquement, peuvent représenter un même système physique. Des relations entre les paramètres physiques et heuristiques existent si la structure de la boîte noire est choisie de sorte qu’elle corresponde à la structure physique. Pour trouver la meilleure représentation, nous proposons d’utiliser, des simulations de Monte Carlo pour analyser la propagation des erreurs dans les différentes transformations de modèle et, une méthode de priorisation pour classer l’influence des paramètres. Les résultats obtenus indiquent qu’il est préférable d’identifier les paramètres physiques. Néanmoins, les informations physiques, déterminées depuis l’estimation des paramètres, sont fiables si la structure est inversible et si la quantité d’information dans les données est suffisante. Nous montrons comment une structure de modèle identifiable peut être choisie, notamment grâce au profil de vraisemblance. L’identification expérimentale comporte trois phases : la sélection, la calibration et la validation du modèle. Ces trois phases sont détaillées dans le cas d’une expérimentation d’une maison réelle en utilisant une approche fréquentiste et Bayésienne. Plus précisément, nous proposons une méthode efficace de calibration Bayésienne pour estimer la distribution postérieure des paramètres et ainsi réaliser des simulations en tenant compte de toute les incertitudes, ce qui représente un atout pour le contrôle prédictif. Nous avons également étudié les capacités des méthodes séquentielles de Monte Carlo pour estimer simultanément les états et les paramètres d’un système. Une adaptation de la méthode de prédiction d’erreur récursive, dans une stratégie séquentielle de Monte Carlo, est proposée et comparée à une méthode de la littérature. Les méthodes séquentielles peuvent être utilisées pour identifier un premier modèle et fournir des informations sur la structure du modèle sélectionnée pendant que les données sont collectées. Par la suite, le modèle peut être amélioré si besoin, en utilisant le jeu de données et une méthode itérative. / The European Union strategy for achieving the climate targets, is to progressively increase the share of renewable energy in the energy mix and to use the energy more efficiently from production to final consumption. It requires to measure the energy performance of buildings and associated systems, independently of weather conditions and user behavior, to provide efficient and adapted retrofitting solutions. It also requires to known the energy demand to anticipate the energy production and storage (demand response). The estimation of building energy demand and the estimation of energy performance of buildings have a common scientific: the experimental identification of the physical model of the building’s intrinsic behavior. Grey box models, determined from first principles, and black box models, determined heuristically, can describe the same physical process. Relations between the physical and mathematical parameters exist if the black box structure is chosen such that it matches the physical ones. To find the best model representation, we propose to use, Monte Carlo simulations for analyzing the propagation of errors in the different model transformations, and factor prioritization, for ranking the parameters according to their influence. The obtained results show that identifying the parameters on the state-space representation is a better choice. Nonetheless, physical information determined from the estimated parameters, are reliable if the model structure is invertible and the data are informative enough. We show how an identifiable model structure can be chosen, especially thanks to profile likelihood. Experimental identification consists of three phases: model selection, identification and validation. These three phases are detailed on a real house experiment by using a frequentist and Bayesian framework. More specifically, we proposed an efficient Bayesian calibration to estimate the parameter posterior distributions, which allows to simulate by taking all the uncertainties into account, which is suitable for model predictive control. We have also studied the capabilities of sequential Monte Carlo methods for estimating simultaneously the states and parameters. An adaptation of the recursive prediction error method into a sequential Monte Carlo framework, is proposed and compared to a method from the literature. Sequential methods can be used to provide a first model fit and insights on the selected model structure while the data are collected. Afterwards, the first model fit can be refined if necessary, by using iterative methods with the batch of data. Génie civil Bâtiments durables Economie d'énergie Modèles thermiques dynamiques Transformation de modèles Propagation d'erreur Analyse de sensibilité Méthodes itératives et séquentielles Méthodes fréquentistes et Bayésiennes Civil engineering Sustainable Buildings Energy saving Dynamic thermal models Model transformation Error propagation Sensibility analysis Identifiability og grey box models Batch and sequential identification Frequentist and Bayesian framework 697.072
57	Étude de l’émergence et de la dynamique évolutive d’Armillaria ostoyae, agent pathogène du pin maritime / Study of the emergence and evolutionary dynamics of Armillaria ostoyae a pathogen of maritime pine Labbé, Frédéric 11 December 2015 (has links) Dans la forêt de pin maritime (Pinus pinaster) des Landes de Gascogne (sud-ouest de France), la mortalité des pins causée par le champignon pourridié Armillaria ostoyae (Basidiomycète) a augmenté au cours des 30 dernières années. Les premiers cas de cette maladie ont été signalés quelques années après un changement majeur dans l'utilisation des terres, qui a eu lieu dans cette région suite au remplacement des landes et marais d'origine par une forêt plantée et gérée da façon intensive. Notre objectif était de comprendre les facteurs à l'origine de cette maladie émergente. Pour cela, nous avons étudié la distribution spatiale des dommages causés par le pathogène en relation avec des facteurs historiques, estimé la variabilité des traits fongiques liés au parasitisme et saprophytisme, et étudié l'histoire démographique d'A. ostoyae. La répartition actuelle de la mortalité induite par A. ostoyae est apparue dépendre de la présence des forêts préexistantes, ce qui suggère qu'A. ostoyae était fréquent dans ces zones forestières anciennes, qui ont agi comme un réservoir pour la colonisation des forêts plantées récentes. La production de rhizomorphes était significativement corrélée avec la virulence, suggérant que ce trait joue un rôle important dans le stade parasitaire d'A. ostoyae. Aucune relation significative entre le parasitisme et saprophytisme n'a été détectée, suggérant une absence de compromis évolutif entre ces traits. Enfin, le meilleur scénario démographique pour expliquer la structure de la population d'A. ostoyae dans la forêt des Landes est un scénario en deux étapes : il y aurait eu d'abord une diminution puis une expansion de la population fongique, qui semblait suivre la dynamique de la population d'hôtes. Le temps de génération d’A. ostoyae a été estimé entre 10 et 20 ans. / In the maritime pine (Pinus pinaster) forest of the Landes de Gascogne (south-western France), pine mortality due to the root rot fungus Armillaria ostoyae (Basidiomycete) has been increasing over the last 30 years. The first cases of this disease were reported a few years after a major change in land use which occurred in this region following the replacement of original moors by an intensively managed planted forest. Our aim was to understand the factors driving this disease emergence. For this, we investigated the spatial distribution of pathogen damage related to historical factors, estimated the variation in fungal traits related to parasitism and saprophytism and investigated the demographic history of A. ostoyae. The current distribution of A. ostoyae mortality appeared depending on the pre-existing forests, suggesting that A. ostoyae was commonly distributed in pre-existing forest areas which acted as a reservoir for the colonization of recent planted forests. The rhizomorphs production was significantly correlated with virulence, suggesting that this trait plays an important role in the parasitic stage of A. ostoyae, but no significant relationship between parasitism and saprophytism components was detected, which may suggest that there is no trade-off between these traits. Finally, the best demographic scenario to explain A. ostoyae population structure in the Landes forest is a two step scenario: there was first a decrease and then an expansion in the fungal population, which appeared to follow the dynamics of the host population. The generation time of A. ostoyae was estimated between 10 and 20 years. Champignon pathogène des forêts Pinus pinaster Agents de pourridiés Maladie émergente Changements paysagers Analyses Bayésiennes Approximées Expansion Temps de génération Forêts de plantations Fungal forest pathogen Pinus pinaster Root-rot disease Disease emergence Land-use change Evolutionary trade-off Virulence Wood degradation Approximate Bayesian Computations Expansion Generation times Planted forests
58	Inférence Adaptative, Inductive et Transductive, pour l'Estimation de la Regression et de la Densité Alquier, Pierre 08 December 2006 (has links) (PDF) Cette thèse a pour objet l'étude des<br />propriétés statistiques d'algorithmes d'apprentissage dans le cas de<br />l'estimation de la régression et de la densité. Elle est divisée en<br />trois parties.<br /><br />La première partie consiste en une généralisation des théorèmes<br />PAC-Bayésiens, sur la classification, d'Olivier Catoni, au cas de la régression avec une fonction de perte<br />générale.<br /><br />Dans la seconde partie, on étudie plus particulièrement le cas de la<br />régression aux moindres carrés et on propose un nouvel algorithme de<br />sélection de variables. Cette méthode peut être appliquée notamment<br />au cas d'une base de fonctions orthonormales, et conduit alors à des<br />vitesses de convergence optimales, mais aussi au cas de fonctions de<br />type noyau, elle conduit alors à une variante des méthodes dites<br />"machines à vecteurs supports" (SVM).<br /><br />La troisième partie étend les résultats de la seconde au cas de<br />l'estimation de densité avec perte quadratique. [MATH] Mathematics théorie de l'apprentissage statistique sélection de modèles régression aux moindres carrés régions de confiance inégalités de concentration bornes pac-bayésiennes estimation non-paramétrique estimation adaptative mesures empiriques de la complexité schémas de compression machines à vecteur support inégalités oracles estimateurs randomisés distribution de Gibbs estimation de la densité ondelettes borne sur le risque
59	Contributions à la description de signaux, d'images et de volumes par l'approche probabiliste et statistique Alata, Olivier 04 October 2010 (has links) (PDF) Les éléments principaux apparaissant dans ce document de synthèse sont les suivants : - La mise en exergue de la pertinence du critère d'information $\phi_\beta$ qui offre la possibilité d'être ``réglé'' par apprentissage de $\beta$ et cela quelque soit le problème de sélection de modèles pour lequel il est possible d'écrire un critère d'information, possibilité qui a été illustrée dans divers contextes applicatifs (supports de prédiction linéaire et dimension du modèle utilisé pour les cinétiques de $\dot VO_2$). - Une méthode d'estimation d'histogrammes pour décrire de manière non-paramé-trique la distribution d'échantillons et son utilisation en reconnaissance de lois supervisée dans un contexte de canaux de transmission. \item Une méthode dite ``comparative descendante'' permettant de trouver la meilleure combinaison des paramètres pour décrire les données étudiées sans avoir à tester toutes les combinaisons, illustrée sur l'obtention de supports de prédiction linéaire 1-d et 2-d. - La mise en place de stratégies de choix de modèles par rapport à des contextes variés comme l'imagerie TEP et les lois de mélange de Gauss et de Poisson ou les espaces couleur et les lois de mélange gaussiennes multidimensionnelles. - L'exploration des modèles de prédiction linéaire vectorielle complexe sur les images représentées dans des espaces couleur séparant l'intensité lumineuse de la partie chromatique et l'usage qui peut en être fait en caractérisation de textures afin de les classifier ou de segmenter les images texturées couleur. \item Des apports en segmentation : optimisation d'une méthode de segmentation non-supervisée d'images texturées en niveaux de gris ; une nouvelle méthode supervisée de segmentation d'images texturées couleur exploitant les espaces couleur psychovisuels et les erreurs de prédiction linéaire vectorielle complexe ; prise en compte dans des distributions de Gibbs d'informations géométriques et topologiques sur le champ des régions afin de réaliser de la segmentation 3-d ``haut-niveau'' exploitant le formalisme des processus ponctuels. - L'illustration des méthodes MCMC dans des contextes divers comme l'estimation de paramètres, l'obtention de segmentations 2-d ou 3-d ou la simulation de processus. Et beaucoup d'autres éléments se révèleront à sa lecture ... Modélisation de processus aléatoires processus Markoviens processus ponctuels processus Autoregressif (AR n-D vectoriel pour la couleur) modèles de mélange modèle linéaire généralisé Estimation méthodes bayésiennes algorithmes stochastiques Textures Classification Segmentation Reconstruction Signaux physiologiques Images biomédicales Codage / Compression
60	Probabilistic and Bayesian nonparametric approaches for recommender systems and networks / Approches probabilistes et bayésiennes non paramétriques pour les systemes de recommandation et les réseaux Todeschini, Adrien 10 November 2016 (has links) Nous proposons deux nouvelles approches pour les systèmes de recommandation et les réseaux. Dans la première partie, nous donnons d’abord un aperçu sur les systèmes de recommandation avant de nous concentrer sur les approches de rang faible pour la complétion de matrice. En nous appuyant sur une approche probabiliste, nous proposons de nouvelles fonctions de pénalité sur les valeurs singulières de la matrice de rang faible. En exploitant une représentation de modèle de mélange de cette pénalité, nous montrons qu’un ensemble de variables latentes convenablement choisi permet de développer un algorithme espérance-maximisation afin d’obtenir un maximum a posteriori de la matrice de rang faible complétée. L’algorithme résultant est un algorithme à seuillage doux itératif qui adapte de manière itérative les coefficients de réduction associés aux valeurs singulières. L’algorithme est simple à mettre en œuvre et peut s’adapter à de grandes matrices. Nous fournissons des comparaisons numériques entre notre approche et de récentes alternatives montrant l’intérêt de l’approche proposée pour la complétion de matrice à rang faible. Dans la deuxième partie, nous présentons d’abord quelques prérequis sur l’approche bayésienne non paramétrique et en particulier sur les mesures complètement aléatoires et leur extension multivariée, les mesures complètement aléatoires composées. Nous proposons ensuite un nouveau modèle statistique pour les réseaux creux qui se structurent en communautés avec chevauchement. Le modèle est basé sur la représentation du graphe comme un processus ponctuel échangeable, et généralise naturellement des modèles probabilistes existants à structure en blocs avec chevauchement au régime creux. Notre construction s’appuie sur des vecteurs de mesures complètement aléatoires, et possède des paramètres interprétables, chaque nœud étant associé un vecteur représentant son niveau d’affiliation à certaines communautés latentes. Nous développons des méthodes pour simuler cette classe de graphes aléatoires, ainsi que pour effectuer l’inférence a posteriori. Nous montrons que l’approche proposée peut récupérer une structure interprétable à partir de deux réseaux du monde réel et peut gérer des graphes avec des milliers de nœuds et des dizaines de milliers de connections. / We propose two novel approaches for recommender systems and networks. In the first part, we first give an overview of recommender systems and concentrate on the low-rank approaches for matrix completion. Building on a probabilistic approach, we propose novel penalty functions on the singular values of the low-rank matrix. By exploiting a mixture model representation of this penalty, we show that a suitably chosen set of latent variables enables to derive an expectation-maximization algorithm to obtain a maximum a posteriori estimate of the completed low-rank matrix. The resulting algorithm is an iterative soft-thresholded algorithm which iteratively adapts the shrinkage coefficients associated to the singular values. The algorithm is simple to implement and can scale to large matrices. We provide numerical comparisons between our approach and recent alternatives showing the interest of the proposed approach for low-rank matrix completion. In the second part, we first introduce some background on Bayesian nonparametrics and in particular on completely random measures (CRMs) and their multivariate extension, the compound CRMs. We then propose a novel statistical model for sparse networks with overlapping community structure. The model is based on representing the graph as an exchangeable point process, and naturally generalizes existing probabilistic models with overlapping block-structure to the sparse regime. Our construction builds on vectors of CRMs, and has interpretable parameters, each node being assigned a vector representing its level of affiliation to some latent communities. We develop methods for simulating this class of random graphs, as well as to perform posterior inference. We show that the proposed approach can recover interpretable structure from two real-world networks and can handle graphs with thousands of nodes and tens of thousands of edges. Systèmes de recommandation Filtrage collaboratif Complétion de matrice de rang faible Modèles probabilistes Espérance-maximisation Réseaux Parcimonie Comportement en loi de puissance Structure en communautés Mesures complètement aléatoires Monte Carlo par chaîne de Markov Graphes Recommender systems Collaborative filtering Low-rank matrix completion Probabilistic models Expectation maximization Networks Graphs Sparsity Power-law behavior Community structure Bayesian nonparametrics Completely random measures Markov chain Monte Carlo

Search results