Spelling suggestions: "subject:"inférence bayésienne"" "subject:"inférence hayésienne""
41 |
Apport et utilisation des méthodes d’inférence bayésienne dans le domaine des études cliniques diagnostiques / Contribution and use of Bayesian inference methods in the field of clinical diagnostic studiesBastide, Sophie 16 December 2016 (has links)
Les études diagnostiques correspondent à l’ensemble des études cliniques qui ont pour objectif l’évaluation d’un nouveau test diagnostique. Dans la démarche d’évaluation, l’étape centrale est l’évaluation de la performance du nouveau test par estimation de sa sensibilité et de sa spécificité. De manière classique, la performance du nouveau test est évaluée par comparaison à un test de référence supposé parfait, appelé un « gold standard » qui permet la connaissance du statut réel de chaque sujet vis-à-vis de la pathologie étudiée. Cependant, dans de très nombreuses situations cliniques, différentes difficultés existent : l’absence de gold standard parfait, l’impossibilité de réalisation du gold standard à tous les sujets, la dépendance des résultats des tests réalisés, la variabilité de la sensibilité et/ou de la spécificité du test en fonction de certaines conditions de réalisation, la multiple réalisation du test dans le temps ou sa multiple interprétation.Une revue méthodologique systématique a été effectuée pour faire l’état des lieux des méthodes d’inférence bayésienne disponibles dans les études diagnostiques et de leur utilisation en pratique. Le focus sur les méthodes bayésiennes a été retenu du fait de leurs avantages théoriques contrastant avec leur relative sous-utilisation dans le domaine médicale. Actuellement, de nombreuses méthodes ont été proposées pour répondre à ces différentes difficultés, avec des développements très complexes en cas de combinaison de plusieurs difficultés dans une même situation. Nous avons ainsi pu établir une cartographie des combinaisons de méthodes disponibles. Cependant leur utilisation en clinique reste encore limitée, même si elle est en augmentation ces dernières années.En pratique, nous avons été confrontés à la problématique du diagnostic de pneumopathie à Pneumocystis jirovecii (PJ) (champignon ubiquitaire opportuniste responsable de mycose profonde chez les patients immunodéprimés). Dans ce projet, nous disposions des résultats de quatre techniques de PCR (Polymerase chain reaction) différentes mais sans gold standard, avec la difficulté supplémentaire de dépendance conditionnelle entre les tests du fait du principe commun à l’origine de ces quatre tests. Deux développements ont été réalisés en parallèle pour répondre à cette problématique : d’une part, un travail sur les méthodes d’élicitation des informations a priori adaptées spécifiquement aux études diagnostiques, et d’autre part, un travail de mise en œuvre d’un modèle statistique adapté à la problématique de quatre tests dépendants en l’absence de gold standard. En l’absence de données informatives dans la littérature, l’élicitation des a priori, étape obligatoire pour l’utilisation des méthodes d’inférence bayésienne, est réalisée par l’interrogation d’experts du domaine. Notre travail a consisté en une adaptation des méthodes existantes, disponibles dans le domaine des essais cliniques, spécifiquement aux études diagnostiques pour obtenir des a priori informatifs. Cette méthode a été appliquée à notre cas des PCR diagnostiques pour PJ. L’estimation des performances diagnostiques des tests en l’absence de gold standard repose de manière efficiente sur les modèles à classes latentes. Trois modèles ont été développés pour le cas de deux tests diagnostiques : un modèle à indépendance conditionnelle, un modèle à dépendance conditionnelle à effets fixes et un modèle à dépendance conditionnelle à effets aléatoires. Nous proposons dans cette thèse une adaptation de ces trois modèles à la situation de quatre tests diagnostiques avec une formulation des paramètres permettant une interprétation clinique des covariances entre les tests dans un souci de transmission des méthodes de la théorie à la pratique. Une application et une comparaison de ces modèles ont été faites pour l’estimation des sensibilités et spécificités des quatre techniques de PCR à PJ en utilisant les a priori informatifs obtenus auprès des experts. / Diagnostic studies include all clinical studies the aim of which is the evaluation of a new diagnostic test. In the evaluation process, the main step is the evaluation of the performance of the new test i.e. its sensitivity and specificity. Usually, the performance of a new test is assessed by comparison to a test of reference which is supposed to be perfect, i.e. a "gold standard", and specifies the actual patient’s status for the disease of interest (“Diseased” or “Not-Diseased” status). However, in many clinical situations, different pitfalls exist such as (i) a gold standard is not available, (ii) the gold standard is not applicable to all patients, (iii) a conditional dependence exists between test results, (iv) the performance of a test is not constant and depends on the conditions of achievement of the test, (v) the tests are repeated in time or by several machines or read by several readers, together with multiple interpretation of the results. A systematic methodological review has been performed to inventory all Bayesian inference methods available in the field of diagnostic studies and their use in practice. The focus on Bayesian methods was based on the theoretical advantages of these methods contrasting with their relative underutilization in the medical field. Finally, several interesting methods have been proposed to address methodological issues of diagnostic studies, with very complex developments when several issues were combined in the same clinical situation. We propose to map the development methods and combinations that have already been done or not. However, their clinical use is still limited, although it has increased in recent years.In practice, we met the problem of the diagnosis of pneumonia due to Pneumocystis jirovecii (PJ). PJ is an ubiquitous opportunistic fungus leading to deep mycosis in immunocompromised patients. In this study, the results of four PCR (polymerase chain reaction) assays were available, but without any gold standard, and the supplementary difficulty of conditional dependence between tests because the four tests were based on the same principle. Two works were performed in parallel to address this issue: on one hand, an adaptation of methods to elicit prior information specifically in diagnostic studies, and on the other hand, the implementation of specific Bayesian statistical models adapted to the context of four-dependent tests in the absence of gold standard. When informative information is not available in the literature, the elicitation of priors, the mandatory first step of a Bayesian inference, is carried out by registering experts’ beliefs in the field. Our work consisted in an adaptation of existing methods, available in clinical trials, specifically for diagnostic studies to obtain informative priors. We then applied this method to our four PJ PCR assays. Estimation of the diagnostic test performance in absence of gold standard is efficiently based on latent class models (LCM). Three LCM were developed for the case of two diagnostic tests: a simple LCM assuming conditional independence between tests, a fixed effects LCM and a random effects LCM providing an adjustment for conditional dependence between tests. We extended these three models to a situation where four diagnostic tests are involved and proposed a formulation that enables an interpretation of between tests covariances in a clinical perspective in order to bind theory to practice. These models were then applied and compared in an estimation study of the sensitivities and specificities of the four PJ PCR assays, by using informative priors obtained from experts.
|
42 |
Data fusion and collaborative state estimation in wireless sensor networks / Fusion de données et estimation collaborative d'état dans les réseaux de capteurs sans filHaj Chhadé, Hiba 01 June 2015 (has links)
L'objectif de la thèse est de développer des algorithmes de fusion de données recueillies à l’aide d'un réseau de capteurs sans fil afin de localiser plusieurs sources émettant un agent chimique ou biologique dans l'air. Ces capteurs détectent la concentration de la substance émise, transportée par advection et diffusion, au niveau de leurs positions et de communiquer cette information à un centre de traitement. L’information recueillie de façon collaborative est d'abord utilisée pour localiser les capteurs déployés au hasard et ensuite pour localiser les sources. Les applications comprennent, entre autres, la surveillance environnementale et la surveillance de sites sensibles ainsi que des applications de sécurité dans le cas d'une libération accidentelle ou intentionnelle d'un agent toxique. Toutefois, l'application considérée dans la thèse est celle de la détection et la localisation de mines terrestres. Dans cette approche, les mines sont considérées comme des sources émettrices de produits chimiques explosifs.La thèse comprend une contribution théorique où nous étendons l'algorithme de propagation de la croyance, un algorithme de fusion de données bien connu et largement utilisé pour l'estimation collaborative d'état dans les réseaux de capteurs, au cadre des méthodes à erreurs bornées. Le nouvel algorithme est testé sur le problème de l'auto-localisation dans les réseaux de capteurs statiques ainsi que l'application de suivi d'un objet mobile en utilisant un réseau de capteurs de distance. Autres contributions comprennent l'utilisation d'une approche probabiliste bayésienne avec des techniques d'analyse de données pour localiser un nombre inconnu de sources émettrices de vapeur. / The aim of the thesis is to develop fusion algorithms for data collected from a wireless sensor network in order to locate multiple sources emitting some chemical or biological agent in the air. These sensors detect the concentration of the emitted substance, transported by advection and diffusion, at their positions and communicate this information to a treatment center. The information collected in a collaborative manner is used first to locate the randomly deployed sensors and second to locate the sources. Applications include, amongst others, environmental monitoring and surveillance of sensitive sites as well as security applications in the case of an accidental or intentional release of a toxic agent. However, the application we consider in the thesis is that of landmine detection and localization. In this approach, the land mines are considered as sources emitting explosive chemicals. The thesis includes a theoretical contribution where we extend the Belief Propagation algorithm, a well-known data fusion algorithm that is widely used for collaborative state estimation in sensor networks, to the bounded error framework. The novel algorithm is tested on the self-localization problem in static sensor networks as well as the application of tracking a mobile object using a network of range sensors. Other contributions include the use of a Bayesian probabilistic approach along with data analysis techniques to locate an unknown number of vapor emitting sources.
|
43 |
Modèles bayésiens d'inférence séquentielle chez l'humain / Bayesian models of human online inferencePrat-Carrabin, Arthur 28 November 2017 (has links)
Le paradigme bayésien s'est imposé comme une interprétation mathématique élégante du comportement humain dans des tâches d'inférence. Pourtant, il ne rend pas compte de la présence de sous-optimalité, de variabilité, et de biais systématiques chez les humains. De plus, le cerveau doit mettre à jour ses représentations du monde extérieur, au fil des informations qui lui parviennent, dans des environnements naturels qui changent au cours du temps, et présentent une structure temporelle. Nous étudions la question de l'inférence séquentielle à l'aide d'une expérience, dont les résultats montrent que les humains tirent parti, dans leur inférence, de la structure temporelle des signaux; et que la variabilité des réponses est elle-même fonction du processus d'inférence. Nous étudions 27 modèles sous-optimaux capturant des limitations cognitives à l'optimalité. La variabilité des réponses est reproduite par des modèles qui font une approximation, par échantillonnage durant l'inférence, du posterior, et par des modèles qui, dans leur réponse, échantillonnent le posterior, plutôt que de le maximiser. Les données expérimentales soutiennent plus fortement la première hypothèse, suggérant que le cerveau utilise quelques échantillons pour représenter, par approximation, le posterior bayésien. Enfin, nous étudions les "effets séquentiels", biais qui consistent à former des attentes erronées à propos d'un signal aléatoire. Nous supposons que les sujets infèrent les statistiques du signal, mais cette inférence est sujette à un coût cognitif, menant à des comportements non-triviaux. Considérés dans leur ensemble, nos résultats montrent, dans le cas naturel de l'inférence séquentielle, que des déviations du modèle bayésien optimal permettent de rendre compte de manière satisfaisante de la sous-optimalité, de la variabilité, et des biais systématiques constatés chez l'humain. / In past decades, the Bayesian paradigm has gained traction as an elegant and mathematically principled account of human behavior in inference tasks. Yet this success is tainted by the sub-optimality, variability, and systematic biases in human behavior. Besides, the brain must sequentially update its belief as new information is received, in natural environments that, usually, change over time and present a temporal structure. We investigate, with a task, the question of human online inference. Our data show that humans can make use of subtle aspects of temporal statistics in online inference; and that the magnitude of the variability found in responses itself depends on the inference. We investigate how a broad family of models, capturing deviations from optimality based on cognitive limitations, can account for human behavior. The variability in responses is reproduced by models approximating the posterior through random sampling during inference, and by models that select responses by sampling the posterior instead of maximizing it. Model fitting supports the former scenario and suggests that the brain approximates the Bayesian posterior using a small number of random samples. In a last part of our work, we turn to "sequential effects", biases in which human subjects form erroneous expectations about a random signal. We assume that subjects are inferring the statistics of the signal, but this inference is hindered by a cognitive cost, leading to non-trivial behaviors. Taken together, our results demonstrate, in the ecological case of online inference, how deviations from the Bayesian model, based on cognitive limitations, can account for sub-optimality, variability, and biases in human behavior.
|
44 |
Contributions aux méthodes de Monte Carlo et leur application au filtrage statistique / Contributions to Monte Carlo methods and their application to statistical filteringLamberti, Roland 22 November 2018 (has links)
Cette thèse s’intéresse au problème de l’inférence bayésienne dans les modèles probabilistes dynamiques. Plus précisément nous nous focalisons sur les méthodes de Monte Carlo pour l’intégration. Nous revisitons tout d’abord le mécanisme d’échantillonnage d’importance avec rééchantillonnage, puis son extension au cadre dynamique connue sous le nom de filtrage particulaire, pour enfin conclure nos travaux par une application à la poursuite multi-cibles.En premier lieu nous partons du problème de l’estimation d’un moment suivant une loi de probabilité, connue à une constante près, par une méthode de Monte Carlo. Tout d’abord,nous proposons un nouvel estimateur apparenté à l’estimateur d’échantillonnage d’importance normalisé mais utilisant deux lois de proposition différentes au lieu d’une seule. Ensuite,nous revisitons le mécanisme d’échantillonnage d’importance avec rééchantillonnage dans son ensemble afin de produire des tirages Monte Carlo indépendants, contrairement au mécanisme usuel, et nous construisons ainsi deux nouveaux estimateurs.Dans un second temps nous nous intéressons à l’aspect dynamique lié au problème d’inférence bayésienne séquentielle. Nous adaptons alors dans ce contexte notre nouvelle technique de rééchantillonnage indépendant développée précédemment dans un cadre statique.Ceci produit le mécanisme de filtrage particulaire avec rééchantillonnage indépendant, que nous interprétons comme cas particulier de filtrage particulaire auxiliaire. En raison du coût supplémentaire en tirages requis par cette technique, nous proposons ensuite une procédure de rééchantillonnage semi-indépendant permettant de le contrôler.En dernier lieu, nous considérons une application de poursuite multi-cibles dans un réseau de capteurs utilisant un nouveau modèle bayésien, et analysons empiriquement les résultats donnés dans cette application par notre nouvel algorithme de filtrage particulaire ainsi qu’un algorithme de Monte Carlo par Chaînes de Markov séquentiel / This thesis deals with integration calculus in the context of Bayesian inference and Bayesian statistical filtering. More precisely, we focus on Monte Carlo integration methods. We first revisit the importance sampling with resampling mechanism, then its extension to the dynamic setting known as particle filtering, and finally conclude our work with a multi-target tracking application. Firstly, we consider the problem of estimating some moment of a probability density, known up to a constant, via Monte Carlo methodology. We start by proposing a new estimator affiliated with the normalized importance sampling estimator but using two proposition densities rather than a single one. We then revisit the importance sampling with resampling mechanism as a whole in order to produce Monte Carlo samples that are independent, contrary to the classical mechanism, which enables us to develop two new estimators. Secondly, we consider the dynamic aspect in the framework of sequential Bayesian inference. We thus adapt to this framework our new independent resampling technique, previously developed in a static setting. This yields the particle filtering with independent resampling mechanism, which we reinterpret as a special case of auxiliary particle filtering. Because of the increased cost required by this technique, we next propose a semi independent resampling procedure which enables to control this additional cost. Lastly, we consider an application of multi-target tracking within a sensor network using a new Bayesian model, and empirically analyze the results from our new particle filtering algorithm as well as a sequential Markov Chain Monte Carlo algorithm
|
45 |
Bayesian iterative reconstruction methods for 3D X-ray Computed Tomography / Méthodes bayésiennes de reconstruction itérative pour la tomographie 3D à rayons XChapdelaine, Camille 12 April 2019 (has links)
Dans un contexte industriel, la tomographie 3D par rayons X vise à imager virtuellement une pièce afin d'en contrôler l'intérieur. Le volume virtuel de la pièce est obtenu par un algorithme de reconstruction, prenant en entrées les projections de rayons X qui ont été envoyés à travers la pièce. Beaucoup d'incertitudes résident dans ces projections à cause de phénomènes non contrôlés tels que la diffusion et le durcissement de faisceau, causes d'artefacts dans les reconstructions conventionnelles par rétroprojection filtrée. Afin de compenser ces incertitudes, les méthodes de reconstruction dites itératives tentent de faire correspondre la reconstruction à un modèle a priori, ce qui, combiné à l'information apportée par les projections, permet d'améliorer la qualité de reconstruction. Dans ce contexte, cette thèse propose de nouvelles méthodes de reconstruction itératives pour le contrôle de pièces produites par le groupe SAFRAN. Compte tenu de nombreuses opérations de projection et de rétroprojection modélisant le processus d'acquisition, les méthodes de reconstruction itératives peuvent être accélérées grâce au calcul parallèle haute performance sur processeur graphique (GPU). Dans cette thèse, les implémentations sur GPU de plusieurs paires de projecteur-rétroprojecteur sont décrites. En particulier, une nouvelle implémentation pour la paire duale dite à empreinte séparable est proposée. Beaucoup de pièces produites par SAFRAN pouvant être vues comme des volumes constants par morceaux, un modèle a priori de Gauss-Markov-Potts est introduit, à partir duquel est déduit un algorithme de reconstruction et de segmentation conjointes. Cet algorithme repose sur une approche bayésienne permettant d'expliquer le rôle de chacun des paramètres. Le caractère polychromatique des rayons X par lequel s'expliquent la diffusion et le durcissement de faisceau est pris en compte par l'introduction d'un modèle direct séparant les incertitudes sur les projections. Allié à un modèle de Gauss-Markov-Potts sur le volume, il est montré expérimentalement que ce nouveau modèle direct apporte un gain en précision et en robustesse. Enfin, l'estimation des incertitudes sur la reconstruction est traitée via l'approche bayésienne variationnelle. Pour obtenir cette estimation en un temps de calcul raisonnable, il est montré qu'il est nécessaire d'utiliser une paire duale de projecteur-rétroprojecteur. / In industry, 3D X-ray Computed Tomography aims at virtually imaging a volume in order to inspect its interior. The virtual volume is obtained thanks to a reconstruction algorithm based on projections of X-rays sent through the industrial part to inspect. In order to compensate uncertainties in the projections such as scattering or beam-hardening, which are cause of many artifacts in conventional filtered backprojection methods, iterative reconstruction methods bring further information by enforcing a prior model on the volume to reconstruct, and actually enhance the reconstruction quality. In this context, this thesis proposes new iterative reconstruction methods for the inspection of aeronautical parts made by SAFRAN group. In order to alleviate the computational cost due to repeated projection and backprojection operations which model the acquisition process, iterative reconstruction methods can take benefit from the use of high-parallel computing on Graphical Processor Unit (GPU). In this thesis, the implementation on GPU of several pairs of projector and backprojector is detailed. In particular, a new GPU implementation of the matched Separable Footprint pair is proposed. Since many of SAFRAN's industrial parts are piecewise-constant volumes, a Gauss-Markov-Potts prior model is introduced, from which a joint reconstruction and segmentation algorithm is derived. This algorithm is based on a Bayesian approach which enables to explain the role of each parameter. The actual polychromacy of X-rays, which is responsible for scattering and beam-hardening, is taken into account by proposing an error-splitting forward model. Combined with Gauss-Markov-Potts prior on the volume, this new forward model is experimentally shown to bring more accuracy and robustness. At last, the estimation of the uncertainties on the reconstruction is investigated by variational Bayesian approach. In order to have a reasonable computation time, it is highlighted that the use of a matched pair of projector and backprojector is necessary.
|
46 |
Inversion cinématique progressive linéaire de la source sismique et ses perspectives dans la quantification des incertitudes associées / Progressive linear kinematic source inversion method and its perspectives towards the uncertainty quantification.Sanchez Reyes, Hugo Samuel 28 October 2019 (has links)
La caractérisation des tremblements de terre est un domaine de recherche primordial en sismologie, où l'objectif final est de fournir des estimations précises d'attributs de la source sismique. Dans ce domaine, certaines questions émergent, par exemple : quand un tremblement de terre s’est-il produit? quelle était sa taille? ou quelle était son évolution dans le temps et l'espace? On pourrait se poser d'autres questions plus complexes comme: pourquoi le tremblement s'est produit? quand sera le prochain dans une certaine région? Afin de répondre aux premières questions, une représentation physique du phénomène est nécessaire. La construction de ce modèle est l'objectif scientifique de ce travail doctoral qui est réalisé dans le cadre de la modélisation cinématique. Pour effectuer cette caractérisation, les modèles cinématiques de la source sismique sont un des outils utilisés par les sismologues. Il s’agit de comprendre la source sismique comme une dislocation en propagation sur la géométrie d’une faille active. Les modèles de sources cinématiques sont une représentation physique de l’histoire temporelle et spatiale d’une telle rupture en propagation. Cette modélisation est dite approche cinématique car les histoires de la rupture inférées par ce type de technique sont obtenues sans tenir compte des forces qui causent l'origine du séisme.Dans cette thèse, je présente une nouvelle méthode d'inversion cinématique capable d'assimiler, hiérarchiquement en temps, les traces de données à travers des fenêtres de temps évolutives. Cette formulation relie la fonction de taux de glissement et les sismogrammes observés, en préservant la positivité de cette fonction et la causalité quand on parcourt l'espace de modèles. Cette approche, profite de la structure creuse de l’histoire spatio-temporelle de la rupture sismique ainsi que de la causalité entre la rupture et chaque enregistrement différé par l'opérateur. Cet opérateur de propagation des ondes connu, est différent pour chaque station. Cette formulation progressive, à la fois sur l’espace de données et sur l’espace de modèle, requiert des hypothèses modérées sur les fonctions de taux de glissement attendues, ainsi que des stratégies de préconditionnement sur le gradient local estimé pour chaque paramètre du taux de glissement. Ces hypothèses sont basées sur de simples modèles physiques de rupture attendus. Les applications réussies de cette méthode aux cas synthétiques (Source Inversion Validation Exercise project) et aux données réelles du séisme de Kumamoto 2016 (Mw=7.0), ont permis d’illustrer les avantages de cette approche alternative d’une inversion cinématique linéaire de la source sismique.L’objectif sous-jacent de cette nouvelle formulation sera la quantification des incertitudes d’un tel modèle. Afin de mettre en évidence les propriétés clés prises en compte dans cette approche linéaire, dans ce travail, j'explore l'application de la stratégie bayésienne connue comme Hamiltonian Monte Carlo (HMC). Cette méthode semble être l’une des possibles stratégies qui peut être appliquée à ce problème linéaire sur-paramétré. Les résultats montrent qu’elle est compatible avec la stratégie linéaire dans le domaine temporel présentée ici. Grâce à une estimation efficace du gradient local de la fonction coût, on peut explorer rapidement l'espace de grande dimension des solutions possibles, tandis que la linéarité est préservée. Dans ce travail, j'explore la performance de la stratégie HMC traitant des cas synthétiques simples, afin de permettre une meilleure compréhension de tous les concepts et ajustements nécessaires pour une exploration correcte de l'espace de modèles probables. Les résultats de cette investigation préliminaire sont encourageants et ouvrent une nouvelle façon d'aborder le problème de la modélisation de la reconstruction cinématique de la source sismique, ainsi, que de l’évaluation des incertitudes associées. / The earthquake characterization is a fundamental research field in seismology, which final goal is to provide accurate estimations of earthquake attributes. In this study field, various questions may rise such as the following ones: when and where did an earthquake happen? How large was it? What is its evolution in space and time? In addition, more challenging questions can be addressed such as the following ones: why did it occur? What is the next one in a given area? In order to progress in the first list of questions, a physical description, or model, of the event is necessary. The investigation of such model (or image) is the scientific topic I investigate during my PhD in the framework of kinematic source models. Understanding the seismic source as a propagating dislocation that occurs across a given geometry of an active fault, the kinematic source models are the physical representations of the time and space history of such rupture propagation. Such physical representation is said to be a kinematic approach because the inferred rupture histories are obtained without taking into account the forces that might cause the origin of the dislocation.In this PhD dissertation, I present a new hierarchical time kinematic source inversion method able to assimilate data traces through evolutive time windows. A linear time-domain formulation relates the slip-rate function and seismograms, preserving the positivity of this function and the causality when spanning the model space: taking benefit of the time-space sparsity of the rupture model evolution is as essential as considering the causality between rupture and each record delayed by the known propagator operator different for each station. This progressive approach, both on the data space and on the model space, does require mild assumptions on prior slip-rate functions or preconditioning strategies on the slip-rate local gradient estimations. These assumptions are based on simple physical expected rupture models. Successful applications of this method to a well-known benchmark (Source Inversion Validation Exercise 1) and to the recorded data of the 2016 Kumamoto mainshock (Mw=7.0) illustrate the advantages of this alternative approach of a linear kinematic source inversion.The underlying target of this new formulation will be the future uncertainty quantification of such model reconstruction. In order to achieve this goal, as well as to highlight key properties considered in this linear time-domain approach, I explore the Hamiltonian Monte Carlo (HMC) stochastic Bayesian framework, which appears to be one of the possible and very promising strategies that can be applied to this stabilized over-parametrized optimization of a linear forward problem to assess the uncertainties on kinematic source inversions. The HMC technique shows to be compatible with the linear time-domain strategy here presented. This technique, thanks to an efficient estimation of the local gradient of the misfit function, appears to be able to rapidly explore the high-dimensional space of probable solutions, while the linearity between unknowns and observables is preserved. In this work, I investigate the performance of the HMC strategy dealing with simple synthetic cases with almost perfect illumination, in order to provide a better understanding of all the concepts and required tunning to achieve a correct exploration of the model space. The results from this preliminary investigation are promising and open a new way of tackling the kinematic source reconstruction problem and the assessment of the associated uncertainties.
|
47 |
Theoretical study of some statistical procedures applied to complex data / Etude théorique de quelques procédures statistiques pour le traitement de données complexesCottet, Vincent R. 17 November 2017 (has links)
La partie principale de cette thèse s'intéresse à développer les aspects théoriques et algorithmiques pour trois procédures statistiques distinctes. Le premier problème abordé est la complétion de matrices binaires. Nous proposons un estimateur basé sur une approximation variationnelle pseudo-bayésienne en utilisant une fonction de perte différente de celles utilisées auparavant. Nous pouvons calculer des bornes non asymptotiques sur le risque intégré. L'estimateur proposé est beaucoup plus rapide à calculer qu'une estimation de type MCMC et nous montrons sur des exemples qu'il est efficace en pratique. Le deuxième problème abordé est l'étude des propriétés théoriques du minimiseur du risque empirique pénalisé pour des fonctions de perte lipschitziennes. Nous pouvons ensuite appliquer les résultats principaux sur la régression logistique avec la pénalisation SLOPE ainsi que sur la complétion de matrice. Le troisième chapitre développe une approximation de type Expectation-Propagation quand la vraisemblance n'est pas explicite. On utilise alors l'approximation ABC dans un second temps. Cette procédure peut s'appliquer à beaucoup de modèles et est beaucoup plus précise et rapide. Elle est appliquée à titre d'exemple sur un modèle d'extrêmes spatiaux. / The main part of this thesis aims at studying the theoretical and algorithmic aspects of three distinct statistical procedures. The first problem is the binary matrix completion. We propose an estimator based on a variational approximation of a pseudo-Bayesian estimator. We use a different loss function of the ones used in the literature. We are able to compute non asymptotic risk bounds. It is much faster to compute the estimator than a MCMC method and we show on examples that it is efficient in practice. In a second part we study the theoretical properties of the regularized empirical risk minimizer for Lipschitz loss functions. We are therefore able to apply it on the logistic regression with the SLOPE regularization and on the matrix completion as well. The third chapter develops an Expectation-Propagation approximation when the likelihood is not explicit. We then use an ABC approximation in a second stage. This procedure may be applied to many models and is more precise and faster than the classic ABC approximation. It is used in a spatial extremes model.
|
48 |
Nouvelles méthodes pour l’apprentissage non-supervisé en grandes dimensions. / New methods for large-scale unsupervised learning.Tiomoko ali, Hafiz 24 September 2018 (has links)
Motivée par les récentes avancées dans l'analyse théorique des performances des algorithmes d'apprentissage automatisé, cette thèse s'intéresse à l'analyse de performances et à l'amélioration de la classification nonsupervisée de données et graphes en grande dimension. Spécifiquement, dans la première grande partie de cette thèse, en s'appuyant sur des outils avancés de la théorie des grandes matrices aléatoires, nous analysons les performances de méthodes spectrales sur des modèles de graphes réalistes et denses ainsi que sur des données en grandes dimensions en étudiant notamment les valeurs propres et vecteurs propres des matrices d'affinités de ces données. De nouvelles méthodes améliorées sont proposées sur la base de cette analyse théorique et démontrent à travers de nombreuses simulations que leurs performances sont meilleures comparées aux méthodes de l'état de l'art. Dans la seconde partie de la thèse, nous proposons un nouvel algorithme pour la détection de communautés hétérogènes entre plusieurs couches d'un graphe à plusieurs types d'interaction. Une approche bayésienne variationnelle est utilisée pour approximer la distribution apostériori des variables latentes du modèle. Toutes les méthodes proposées dans cette thèse sont utilisées sur des bases de données synthétiques et sur des données réelles et présentent de meilleures performances en comparaison aux approches standard de classification dans les contextes susmentionnés. / Spurred by recent advances on the theoretical analysis of the performances of the data-driven machine learning algorithms, this thesis tackles the performance analysis and improvement of high dimensional data and graph clustering. Specifically, in the first bigger part of the thesis, using advanced tools from random matrix theory, the performance analysis of spectral methods on dense realistic graph models and on high dimensional kernel random matrices is performed through the study of the eigenvalues and eigenvectors of the similarity matrices characterizing those data. New improved methods are proposed and are shown to outperform state-of-the-art approaches. In a second part, a new algorithm is proposed for the detection of heterogeneous communities from multi-layer graphs using variational Bayes approaches to approximate the posterior distribution of the sought variables. The proposed methods are successfully applied to synthetic benchmarks as well as real-world datasets and are shown to outperform standard approaches to clustering in those specific contexts.
|
49 |
Variations temporelles et géographiques des méningites à pneumocoque et effet du vaccin conjugué en France / Temporal and geographic variation of pneumococcal meningitis and effect of conjugate vaccine in FranceAlari, Anna 30 November 2018 (has links)
Streptococcus pneumoniae est une bactérie cocci gram positif commensale de la flore oropharyngée qui colonise le rhinopharynx de l’Homme et dont près de 100 sérotypes sont connus. Les nourrissons et les jeunes enfants représentent son réservoir principal. Le pneumocoque peut être à l’origine d’infections graves, telles que la méningite, les bactériémies et la pneumonie, et moins graves mais plus courantes comme la sinusite et l’otite moyenne aiguë. Deux vaccins anti-pneumococciques conjugués ont été introduits en France : le PCV7 (couvrant contre 7 sérotypes) en 2003 et le PCV13 (couvrant contre 6 sérotypes supplémentaires) en 2010. L’objectif général de ce travail de thèse est d’évaluer l’impact des politiques vaccinales sur les infections invasives à pneumocoque en France, en s’intéressant principalement aux évolutions temporelles et géographiques des plus graves : les méningites à pneumocoque (MP). Un premier travail a étudié les dynamiques temporelles des MP sur la période 2001–2014 afin d’identifier l’impact de l’introduction des vaccins conjugués. Des techniques statistiques de modélisations adaptées aux séries temporelles ont été utilisées. Les résultats de ce travail retrouvent des effets rapportés dans la littérature : une réduction des MP à sérotypes vaccinaux mais aussi une augmentation des MP dues aux sérotypes non inclus dans le vaccin (phénomène de « remplacement sérotypique »).Par conséquent, le premier bénéfice, à l’échelle de la population générale, de l’introduction de cette vaccination a été observé seulement onze ans après l’introduction du PCV7, et principalement suite à l’introduction du PCV13 en 2010, avec une diminution de 25% du nombre de MP en 2014. La composante géographique a ensuite été prise en compte afin d’étudier le rôle de la de couverture vaccinale dans la variabilité des MP annuelles entre les départements sur la période 2001-2016. Les résultats confirment l’efficacité des deux formulations du vaccin sur les MP dues aux sérotypes vaccinaux et suggèrent une certaine homogénéité de cet effet entre les différents départements. Inversement, le remplacement sérotypique a été confirmé mais uniquement suite à l’introduction de la première formulation du vaccin et ces effets présentent une répartition géographique hétérogène et variable. La variabilité de la couverture vaccinale entre les départements n’explique pas celle observée dans le nombre de MP, ce qui suggère l’intervention d’autres facteurs tel que la densité géographique. Enfin, une modélisation dynamique, permettant de prendre en compte des aspects fondamentaux des dynamiques de transmission et d’infection du pneumocoque non intégrés dans les méthodes de modélisation statique, a été proposée afin de prédire l’impact de différentes stratégies de vaccination pour les adultes de 65 ans et plus et ainsi évaluer leur rapport coût-utilité. / Streptococcus pneumoniae is a Gram-positive commensal bacterium of the oropharyngeal flora usually colonizing human’s rhino pharynx, of which almost 100 serotypes are known. Infants and young children constitute its main reservoir. Pneumococcus may cause serious infections, such as meningitis, bacteremia and pneumonia, or less serious but more common such as sinusitis and acute otitis media (AOM). Two conjugate pneumococcal vaccines have been introduced in France: PCV7 (covering 7 serotypes) in 2003 and PCV13 (covering 6 additional serotypes) in 2010. The overall objective of this thesis is to assess the impact of vaccination policy on invasive pneumococcal diseases in France, by focusing on temporal and geographical trends of the most serious of them: pneumococcal meningitis (PM). An initial study of PMs temporal dynamics over the 2011-2014 period assessed the impact of conjugate vaccines’ introduction. Statistical modeling techniques were used for time series analysis. The results confirm the effects found in literature: a reduction of vaccine serotypes PMs but at the same time an increase of PMs, due to non-vaccine serotypes (effect of “serotype replacement”). Therefore, the first benefit of vaccine introduction at population scale has been observed no less than 11 years after PCV7 introduction, and then principally after PCV13 was introduced in 2010, with a 25% decrease in PMs in 2014. The geographic component was then implemented to analyze the role of vaccine coverage in annual PM variability between geographic units over the 2001-2016 period. Results confirm the effectiveness of both vaccine compositions on vaccine serotypes PMs and suggest homogeneity of this effect among geographic units. Conversely the serotype replacement has been confirmed only after the first vaccine composition was introduced and presents a variable and heterogeneous geographical repartition. Variability in vaccine coverage among geographic units doesn’t explain the differences in PMs, which could suggest the role of others factors such as demographic density. Finally, a dynamic modeling capable of taking into consideration fundamental aspects of pneumococcus transmission and infection mechanisms not integrated in static modeling has been proposed in order to predict the impacts of different vaccination strategies for 65+ adults and therefore assess their cost-utility ratios.
|
50 |
Modèles bayésiens pour la détection de synchronisations au sein de signaux électro-corticaux / Bayesian models for synchronizations detection in electrocortical signalsRio, Maxime 16 July 2013 (has links)
Cette thèse propose de nouvelles méthodes d'analyse d'enregistrements cérébraux intra-crâniens (potentiels de champs locaux), qui pallie les lacunes de la méthode temps-fréquence standard d'analyse des perturbations spectrales événementielles : le calcul d'une moyenne sur les enregistrements et l'emploi de l'activité dans la période pré-stimulus. La première méthode proposée repose sur la détection de sous-ensembles d'électrodes dont l'activité présente des synchronisations cooccurrentes en un même point du plan temps-fréquence, à l'aide de modèles bayésiens de mélange gaussiens. Les sous-ensembles d'électrodes pertinents sont validés par une mesure de stabilité calculée entre les résultats obtenus sur les différents enregistrements. Pour la seconde méthode proposée, le constat qu'un bruit blanc dans le domaine temporel se transforme en bruit ricien dans le domaine de l'amplitude d'une transformée temps-fréquence a permis de mettre au point une segmentation du signal de chaque enregistrement dans chaque bande de fréquence en deux niveaux possibles, haut ou bas, à l'aide de modèles bayésiens de mélange ricien à deux composantes. À partir de ces deux niveaux, une analyse statistique permet de détecter des régions temps-fréquence plus ou moins actives. Pour développer le modèle bayésien de mélange ricien, de nouveaux algorithmes d'inférence bayésienne variationnelle ont été créés pour les distributions de Rice et de mélange ricien. Les performances des nouvelles méthodes ont été évaluées sur des données artificielles et sur des données expérimentales enregistrées sur des singes. Il ressort que les nouvelles méthodes génèrent moins de faux-positifs et sont plus robustes à l'absence de données dans la période pré-stimulus / This thesis promotes new methods to analyze intracranial cerebral signals (local field potentials), which overcome limitations of the standard time-frequency method of event-related spectral perturbations analysis: averaging over the trials and relying on the activity in the pre-stimulus period. The first proposed method is based on the detection of sub-networks of electrodes whose activity presents cooccurring synchronisations at a same point of the time-frequency plan, using bayesian gaussian mixture models. The relevant sub-networks are validated with a stability measure computed over the results obtained from different trials. For the second proposed method, the fact that a white noise in the temporal domain is transformed into a rician noise in the amplitude domain of a time-frequency transform made possible the development of a segmentation of the signal in each frequency band of each trial into two possible levels, a high one and a low one, using bayesian rician mixture models with two components. From these two levels, a statistical analysis can detect time-frequency regions more or less active. To develop the bayesian rician mixture model, new algorithms of variational bayesian inference have been created for the Rice distribution and the rician mixture distribution. Performances of the new methods have been evaluated on artificial data and experimental data recorded on monkeys. It appears that the new methods generate less false positive results and are more robust to a lack of data in the pre-stimulus period
|
Page generated in 0.0653 seconds