• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 13
  • 7
  • 2
  • Tagged with
  • 20
  • 20
  • 12
  • 11
  • 9
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Modélisation des données d'attractivité hospitalière par les modèles d'utilité / Modeling hospital attractivity data by using utility models

Saley, Issa 29 November 2017 (has links)
Savoir comment les patients choisissent les hôpitaux est d'une importance majeure non seulement pour les gestionnaires des hôpitaux mais aussi pour les décideurs. Il s'agit entre autres pour les premiers, de la gestion des flux et l'offre des soins et pour les seconds, l'implémentation des reformes dans le système de santé.Nous proposons dans cette thèse différentes modélisations des données d'admission de patients en fonction de la distance par rapport à un hôpital afin de prévoir le flux des patients et de comparer son attractivité par rapport à d'autres hôpitaux. Par exemple, nous avons utilisé des modèles bayésiens hiérarchiques pour des données de comptage avec possible dépendance spatiale. Des applications on été faites sur des données d'admission de patients dans la région de Languedoc-Roussillon.Nous avons aussi utilisé des modèles de choix discrets tels que les RUMs. Mais vu certaines limites qu'ils présentent pour notre objectif, nous avons relâché l'hypothèse de maximisation d'utilité pour une plus souple et selon laquelle un agent (patient) peut choisir un produit (donc hôpital) dès lors que l'utilité que lui procure ce produit a atteint un certain seuil de satisfaction, en considérant certains aspects. Une illustration de cette approche est faite sur trois hôpitaux de l'Hérault pour les séjours dus à l'asthme en 2009 pour calculer l'envergure territorial d'un hôpital donné . / Understanding how patients choose hospitals is of utmost importance for both hospitals administrators and healthcare decision makers; the formers for patients incoming tide and the laters for regulations.In this thesis, we present different methods of modelling patients admission data in order to forecast patients incoming tide and compare hospitals attractiveness.The two first method use counting data models with possible spatial dependancy. Illustration is done on patients admission data in Languedoc-Roussillon.The third method uses discrete choice models (RUMs). Due to some limitations of these models according to our goal, we introduce a new approach where we released the assumption of utility maximization for an utility-threshold ; that is to say that an agent (patient) can choose an alternative (hospital) since he thinks that he can obtain a certain level of satisfaction of doing so, according to some aspects. Illustration of the approach is done on 2009 asthma admission data in Hérault.
12

Localisation de robots mobiles en coopération mutuelle par observation d'état distribuée / Localization of mobile robots in mutual cooperation by observing distributed state

Lassoued, Khaoula 11 July 2016 (has links)
On étudie dans cette thèse des méthodes de localisation coopérative de robots mobiles sans utilisation de mesures extéroceptives relatives, comme des angles ou des distances entre robots. Les systèmes de localisation considérés sont basés sur des mesures de radionavigation sur des balises fixes ou des satellites. Pour ces systèmes, on observe en général un écart entre la position observée et la position réelle. Cet écart systématique (appelé biais) peut être dû à une mauvaise position de la balise ou à une différence entre la propagation réelles des ondes électromagnétiques par rapport aux conditions standard utilisées pour établir les modèles d’observation. L’influence de ce biais sur la localisation des robots est non négligeable. La coopération et l’échange de données entre les robots (estimations des biais, estimations des positions et données proprioceptives) est une approche qui permet de corriger ces erreurs systématiques. La localisation coopérative par échange des estimations est sujette aux problèmes de consanguinité des données qui peuvent engendrer des résultats erronés, en particulier trop confiants. Lorsque les estimations sont utilisées pour la navigation autonome à l’approche, on doit éviter tout risque de collision qui peut mettre en jeu la sécurité des robots et des personnes aux alentours. On doit donc avoir recours à un mécanisme d’intégrité vérifiant que l’erreur commise reste inférieure à une erreur maximale tolérable pour la mission. Dans un tel contexte, il est nécessaire de caractériser des domaines de confiance fiables contenant les positions des robots mobiles avec une forte probabilité. L’utilisation des méthodes ensemblistes à erreurs bornées est considérée alors comme une solution efficace. En effet, ce type d’approche résout naturellement le problème de consanguinité des données et fournit des domaines de confiance fiables. De surcroît, l’utilisation de modèles non-linéaires ne pose aucun problème de linéarisation. Après avoir modélisé un système coopératif de nr robots avec des mesures biaisées sur des balises, une étude d’observabilité est conduite. Deux cas sont considérés selon la nature des mesures brutes des observations. En outre, des conditions d’observabilité sont démontrées. Un algorithme ensembliste de localisation coopérative est ensuite présenté. Les méthodes considérées sont basées sur la propagation de contraintes sur des intervalles et l’inversion ensembliste. La coopération est effectuée grâce au partage des positions estimées, des biais estimés et des mesures proprioceptives.L’échange des estimations de biais permet de réduire les incertitudes sur les positions des robots. Dans un cadre d’étude simple, la faisabilité de l’algorithme est évaluée grâce à des simulations de mesures de distances sur balises en utilisant plusieurs robots. La coopération est comparée aux méthodes non coopératives. L’algorithme coopératif ensembliste est ensuite testé sur des données réelles en utilisant deux véhicules. Les performances de la méthode ensembliste coopérative sont enfin comparées avec deux méthodes Bayésiennes séquentielles, notamment une avec fusion par intersection de covariance. La comparaison est conduite en termes d’exactitude et d’incertitude. / In this work, we study some cooperative localization issues for mobile robotic systems that interact with each other without using relative measurements (e.g. bearing and relative distances). The considered localization technologies are based on beacons or satellites that provide radio-navigation measurements. Such systems often lead to offsets between real and observed positions. These systematic offsets (i.e, biases) are often due to inaccurate beacon positions, or differences between the real electromagnetic waves propagation and the observation models. The impact of these biases on robots localization should not be neglected. Cooperation and data exchange (estimates of biases, estimates of positions and proprioceptive measurements) reduce significantly systematic errors. However, cooperative localization based on sharing estimates is subject to data incest problems (i.e, reuse of identical information in the fusion process) that often lead to over-convergence problems. When position information is used in a safety-critical context (e.g. close navigation of autonomous robots), one should check the consistency of the localization estimates. In this context, we aim at characterizing reliable confidence domains that contain robots positions with high reliability. Hence, set-membership methods are considered as efficient solutions. This kind of approach enables merging adequately the information even when it is reused several time. It also provides reliable domains. Moreover, the use of non-linear models does not require any linearization. The modeling of a cooperative system of nr robots with biased beacons measurements is firstly presented. Then, we perform an observability study. Two cases regarding the localization technology are considered. Observability conditions are identified and demonstrated. We then propose a set-membership method for cooperativelocalization. Cooperation is performed by sharing estimated positions, estimated biases and proprioceptive measurements. Sharing biases estimates allows to reduce the estimation error and the uncertainty of the robots positions. The algorithm feasibility is validated through simulation when the observations are beacons distance measurements with several robots. The cooperation provides better performance compared to a non-cooperative method. Afterwards, the cooperative algorithm based on set-membership method is tested using real data with two experimental vehicles. Finally, we compare the interval method performance with a sequential Bayesian approach based on covariance intersection. Experimental results indicate that the interval approach provides more accurate positions of the vehicles with smaller confidence domains that remain reliable. Indeed, the comparison is performed in terms of accuracy and uncertainty.
13

Approches bayésiennes appliquées à l’identification d’efforts vibratoires par la méthode de Résolution Inverse / Bayesian approaches and Force Analysis Technique applied to the vibration source identification

Faure, Charly 09 January 2017 (has links)
Des modèles de plus en plus précis sont développés pour prédire le comportement vibroacoustique des structures et dimensionner des traitements adaptés. Or, les sources vibratoires, qui servent de données d'entrée à ces modèles, restent assez souvent mal connues. Une erreur sur les sources injectées se traduit donc par un biais sur la prédiction vibroacoustique. En amont des simulations, la caractérisation expérimentale de sources vibratoires en conditions opérationnelles est un moyen de réduire ce biais et fait l'objet de ces travaux de thèse.L'approche proposée utilise une méthode inverse, la Résolution Inverse (RI), permettant l'identification de sources à partir des déplacements de structure. La sensibilité aux perturbations de mesure, commune à la plupart des méthodes inverses, est traitée dans un cadre probabiliste par des méthodes bayésiennes.Ce formalisme bayésien permet : d'améliorer la robustesse de la méthode RI ; la détection automatique de sources sur la distribution spatiale ; l'identification parcimonieuse pour le cas de sources ponctuelles ; l'identification de paramètres de modèle pour les structures homogénéisées ; l'identification de sources instationnaires ; la propagation des incertitudes de mesures sur l'évaluation du spectre d'effort ; l'évaluation de la qualité de la mesure par un indicateur empirique de rapport signal à bruit.Ces deux derniers points sont obtenus avec une unique mesure, là où des approches statistiques plus classiques demandent une campagne de mesures plus conséquente. Ces résultats ont été validés à la fois numériquement et expérimentalement, avec une source maîtrisée mais aussi avec une source industrielle. De plus, la procédure est en grande partie non-supervisée. Il ne reste alors à la charge de l’utilisateur qu’un nombre restreint de paramètres à fixer. Lesapproches proposées peuvent donc être utilisées dans une certaine mesure comme des boites noires. / Increasingly accurate models are developped to predict the vibroacoustic behavior of structures and to propose adequate treatments.Vibration sources used as input of these models are still broadly unknown. In simulation, an error on vibration sources produces a bias on the vibroacoustic predictions. A way to reduce this bias is to characterize experimentally the vibration sources in operational condition before some simulations. It is therefore the subject of this PhD work.The proposed approach is based on an inverse method, the Force Analysis Technique (FAT), and allows the identification of vibration sources from displacement measurements. The noise sensibility, common to most of inverse methods, is processed in a probabilistic framework using Bayesian methods.This Bayesian framework allows: some improvements of the FAT robustness; an automatic detection of sources; the sparse identification of sources for pointwise sources; the model parameters identification for the purpose of homogenized structures; the identification of unsteady sources; the propagation of uncertainties through force spectrum (with credibility intervals); measurement quality assessment from a empirical signal to noise ratio.These two last points are obtained from a unique scan of the structure, where more traditional statistical methods need multiple scans of the structure. Both numerical and experimental validations have been proposed, with a controled excitation and with an industrial source. Moreover, the procedure is rather unsupervised in this work. Therefore, the user only has a few number of parameters to set by himself. In a certain extent, the proposed approaches can then be applied as black boxes.
14

Méthodologie de l'utilisation des biomarqueurs quantitatifs longitudinaux pour l'aide à la décision en médecine : application aux PSA dans le cancer de la prostate / Methodology for the use of longitudinal quantitative biomarkers in medical decision making

Subtil, Fabien 04 June 2010 (has links)
Lorsqu'un biomarqueur est mesuré de façon répétée au cours du suivi de patients, il est d'abord nécessaire d'établir un critère, issu du profil d'évolution longitudinal du marqueur, afin de détecter la survenue d'un événement, ou d'en prédire la gravité. Nous avons développé une méthode de modélisation robuste de données longitudinales, afin de calculer les différents critères pour les patients, et d'en comparer les performances diagnostiques ou pronostiques. Dans un second temps, il faut déterminer un seuil de ce critère quantitatif au dessus ou en dessous duquel le test diagnostique est considéré comme positif. Une méthode Bayésienne d'estimation de ce seuil et de son intervalle de crédibilité a été développée. Ce travail a été appliqué au diagnostic de persistance locale de cellules cancéreuses après traitement par ultrasons d'un cancer de la prostate. Ce diagnostic est effectué à partir des mesures répétées d'antigène spécifique de la prostate (PSA), dont le nadir a été retenu, avec différents seuils, comme meilleur critère diagnostique. Ceci permet de n'effectuer des biopsies que lorsqu'il y a de fortes chances qu'elles soient positives. / For the early diagnosis or prognosis of an event in presence of repeated measurements of a biomarker over time, it is necessary to define a criterion, stemming from the longitudinal profiles of that marker. A method was developed for a robust modelling of marker measurements, to calculate the various criteria for the patients, and compare their diagnostic or prognostic accuracies. Using the continuous criterion as a diagnostic test requires the specification of a threshold. A Bayesian method was developed to estimate this threshold and its credible interval. This method was applied to the diagnosis of local prostate cancer persistence after an ultrasound treatment. The diagnosis relies on serial measurements of prostate specific antigen (PSA), whose nadir (along with several thresholds) was found to be the best diagnostic criterion. This allows to trigger biopsy only when this biopsy is likely to be positive.
15

Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populations. / Adaptive multiple importance sampling and approximate bayesian computation with applications in population genetics.

Sedki, Mohammed Amechtoh 31 October 2012 (has links)
Dans cette thèse, on propose des techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. La vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comportes des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. [2012] nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus parcette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et onsupposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise uneapproximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de DelMoral et al. [2012] que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveauxd'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simulations par rapport à laméthode ABC avec acceptation couramment utilisée. / This thesis consists of two parts which can be read independently.The first part is about the Adaptive Multiple Importance Sampling (AMIS) algorithm presented in Cornuet et al.(2012) provides a significant improvement in stability and Effective Sample Size due to the introduction of the recycling procedure. These numerical properties are particularly adapted to the Bayesian paradigm in population genetics where the modelization involves a large number of parameters. However, the consistency of the AMIS estimator remains largely open. In this work, we provide a novel Adaptive Multiple Importance Sampling scheme corresponding to a slight modification of Cornuet et al. (2012) proposition that preserves the above-mentioned improvements. Finally, using limit theorems on triangular arrays of conditionally independant random variables, we give a consistensy result for the final particle system returned by our new scheme.The second part of this thesis lies in ABC paradigm. Approximate Bayesian Computation has been successfully used in population genetics models to bypass the calculation of the likelihood. These algorithms provide an accurate estimator by comparing the observed dataset to a sample of datasets simulated from the model. Although parallelization is easily achieved, computation times for assuring a suitable approximation quality of the posterior distribution are still long. To alleviate this issue, we propose a sequential algorithm adapted fromDel Moral et al. (2012) which runs twice as fast as traditional ABC algorithms. Itsparameters are calibrated to minimize the number of simulations from the model.
16

P and T wave analysis in ECG signals using Bayesian methods / Analyse des ondes P et T des signaux ECG à l'aide de méthodes Bayésienne

Lin, Chao 02 July 2012 (has links)
Cette thèse a pour objet l’étude de méthodes Bayésiennes pour l’analyse des ondes P et T des signaux ECG. Différents modèles statistiques et des méthodes Bayésiennes associées sont proposés afin de réaliser la détection des ondes P et T et leur caractérisation (détermination du sommet et des limites des ondes ainsi que l’estimation des formes d’onde). Ces modèles prennent en compte des lois a priori pour les paramètres inconnus (les positions des ondes, les amplitudes et les coefficients de ces formes d'onde) associés aux signaux ECG. Ces lois a priori sont ensuite combinées avec la vraisemblance des données observées pour fournir les lois a posteriori des paramètres inconnus. En raison de la complexité des lois a posteriori obtenues, des méthodes de Monte Carlo par Chaînes de Markov sont proposées pour générer des échantillons distribués asymptotiquement suivant les lois d’intérêt. Ces échantillons sont ensuite utilisés pour approcher les estimateurs Bayésiens classiques (MAP ou MMSE). D'autre part, pour profiter de la nature séquentielle du signal ECG, un modèle dynamique est proposé. Une méthode d'inférence Bayésienne similaire à celle développée précédemment et des méthodes de Monte Carlo séquentielles (SMC) sont ensuite étudiées pour ce modèle dynamique. Dans la dernière partie de ce travail, deux modèles Bayésiens introduits dans cette thèse sont adaptés pour répondre à un sujet de recherche clinique spécifique appelé détection de l'alternance des ondes T. Une des approches proposées a servi comme outil d'analyse dans un projet en collaboration avec St. Jude Medical, Inc et l'hôpital de Rangueil à Toulouse, qui vise à évaluer prospectivement la faisabilité de la détection des alternances des ondes T dans les signaux intracardiaques. / This thesis studies Bayesian estimation/detection algorithms for P and T wave analysis in ECG signals. In this work, different statistical models and associated Bayesian methods are proposed to solve simultaneously the P and T wave delineation task (determination of the positions of the peaks and boundaries of the individual waves) and the waveform-estimation problem. These models take into account appropriate prior distributions for the unknown parameters (wave locations and amplitudes, and waveform coefficients). These prior distributions are combined with the likelihood of the observed data to provide the posterior distribution of the unknown parameters. Due to the complexity of the resulting posterior distributions, Markov chain Monte Carlo algorithms are proposed for (sample-based) detection/estimation. On the other hand, to take full advantage of the sequential nature of the ECG, a dynamic model is proposed under a similar Bayesian framework. Sequential Monte Carlo methods (SMC) are also considered for delineation and waveform estimation. In the last part of the thesis, two Bayesian models introduced in this thesis are adapted to address a specific clinical research problem referred to as T wave alternans (TWA) detection. One of the proposed approaches has served as an efficient analysis tool in the Endocardial T wave Alternans Study (ETWAS) project in collaboration with St. Jude Medical, Inc and Toulouse Rangueil Hospital. This project was devoted to prospectively assess the feasibility of TWA detection in repolarisation on EGM stored in ICD memories.
17

Modélisation et traitement statistique d'images de microscopie confocale : application en dermatologie / Modeling and statistical treatment of confocal microscopy images : application in dermatology

Halimi, Abdelghafour 04 December 2017 (has links)
Dans cette thèse, nous développons des modèles et des méthodes statistiques pour le traitement d’images de microscopie confocale de la peau dans le but de détecter une maladie de la peau appelée lentigo. Une première contribution consiste à proposer un modèle statistique paramétrique pour représenter la texture dans le domaine des ondelettes. Plus précisément, il s’agit d’une distribution gaussienne généralisée dont on montre que le paramètre d’échelle est caractéristique des tissus sousjacents. La modélisation des données dans le domaine de l’image est un autre sujet traité dans cette thèse. A cette fin, une distribution gamma généralisée est proposée. Notre deuxième contribution consiste alors à développer un estimateur efficace des paramètres de cette loi à l’aide d’une descente de gradient naturel. Finalement, un modèle d’observation de bruit multiplicatif est établi pour expliquer la distribution gamma généralisée des données. Des méthodes d’inférence bayésienne paramétrique sont ensuite développées avec ce modèle pour permettre la classification d’images saines et présentant un lentigo. Les algorithmes développés sont appliqués à des images réelles obtenues d’une étude clinique dermatologique. / In this work, we develop statistical models and processing methods for confocal microscopy images. The first contribution consists of a parametric statistical model to represent textures in the wavelet domain. Precisely, a generalized Gaussian distribution is proposed, whose scale parameter is shown to be discriminant of the underlying tissues. The thesis deals also with modeling data in the image domain using the generalized gamma distribution. The second contribution develops an efficient parameter estimator for this distribution based on a natural gradient approach. The third contribution establishes a multiplicative noise observation model to explain the distribution of the data. Parametric Bayesian inference methods are subsequently developed based on this model to classify healthy and lentigo images. All algorithms developed in this thesis have been applied to real images from a dermatologic clinical study.
18

Uncertainty in radar emitter classification and clustering / Gestion des incertitudes en identification des modes radar

Revillon, Guillaume 18 April 2019 (has links)
En Guerre Electronique, l’identification des signaux radar est un atout majeur de la prise de décisions tactiques liées au théâtre d’opérations militaires. En fournissant des informations sur la présence de menaces, la classification et le partitionnement des signaux radar ont alors un rôle crucial assurant un choix adapté des contre-mesures dédiées à ces menaces et permettant la détection de signaux radar inconnus pour la mise à jour des bases de données. Les systèmes de Mesures de Soutien Electronique enregistrent la plupart du temps des mélanges de signaux radar provenant de différents émetteurs présents dans l’environnement électromagnétique. Le signal radar, décrit par un motif de modulations impulsionnelles, est alors souvent partiellement observé du fait de mesures manquantes et aberrantes. Le processus d’identification se fonde sur l’analyse statistique des paramètres mesurables du signal radar qui le caractérisent tant quantitativement que qualitativement. De nombreuses approches mêlant des techniques de fusion de données et d’apprentissage statistique ont été développées. Cependant, ces algorithmes ne peuvent pas gérer les données manquantes et des méthodes de substitution de données sont requises afin d’utiliser ces derniers. L’objectif principal de cette thèse est alors de définir un modèle de classification et partitionnement intégrant la gestion des valeurs aberrantes et manquantes présentes dans tout type de données. Une approche fondée sur les modèles de mélange de lois de probabilités est proposée dans cette thèse. Les modèles de mélange fournissent un formalisme mathématique flexible favorisant l’introduction de variables latentes permettant la gestion des données aberrantes et la modélisation des données manquantes dans les problèmes de classification et de partionnement. L’apprentissage du modèle ainsi que la classification et le partitionnement sont réalisés dans un cadre d’inférence bayésienne où une méthode d’approximation variationnelle est introduite afin d’estimer la loi jointe a posteriori des variables latentes et des paramètres. Des expériences sur diverses données montrent que la méthode proposée fournit de meilleurs résultats que les algorithmes standards. / In Electronic Warfare, radar signals identification is a supreme asset for decision making in military tactical situations. By providing information about the presence of threats, classification and clustering of radar signals have a significant role ensuring that countermeasures against enemies are well-chosen and enabling detection of unknown radar signals to update databases. Most of the time, Electronic Support Measures systems receive mixtures of signals from different radar emitters in the electromagnetic environment. Hence a radar signal, described by a pulse-to-pulse modulation pattern, is often partially observed due to missing measurements and measurement errors. The identification process relies on statistical analysis of basic measurable parameters of a radar signal which constitute both quantitative and qualitative data. Many general and practical approaches based on data fusion and machine learning have been developed and traditionally proceed to feature extraction, dimensionality reduction and classification or clustering. However, these algorithms cannot handle missing data and imputation methods are required to generate data to use them. Hence, the main objective of this work is to define a classification/clustering framework that handles both outliers and missing values for any types of data. Here, an approach based on mixture models is developed since mixture models provide a mathematically based, flexible and meaningful framework for the wide variety of classification and clustering requirements. The proposed approach focuses on the introduction of latent variables that give us the possibility to handle sensitivity of the model to outliers and to allow a less restrictive modelling of missing data. A Bayesian treatment is adopted for model learning, supervised classification and clustering and inference is processed through a variational Bayesian approximation since the joint posterior distribution of latent variables and parameters is untractable. Some numerical experiments on synthetic and real data show that the proposed method provides more accurate results than standard algorithms.
19

Contributions à la description de signaux, d'images et de volumes par l'approche probabiliste et statistique

Alata, Olivier 04 October 2010 (has links) (PDF)
Les éléments principaux apparaissant dans ce document de synthèse sont les suivants : - La mise en exergue de la pertinence du critère d'information $\phi_\beta$ qui offre la possibilité d'être ``réglé'' par apprentissage de $\beta$ et cela quelque soit le problème de sélection de modèles pour lequel il est possible d'écrire un critère d'information, possibilité qui a été illustrée dans divers contextes applicatifs (supports de prédiction linéaire et dimension du modèle utilisé pour les cinétiques de $\dot VO_2$). - Une méthode d'estimation d'histogrammes pour décrire de manière non-paramé-trique la distribution d'échantillons et son utilisation en reconnaissance de lois supervisée dans un contexte de canaux de transmission. \item Une méthode dite ``comparative descendante'' permettant de trouver la meilleure combinaison des paramètres pour décrire les données étudiées sans avoir à tester toutes les combinaisons, illustrée sur l'obtention de supports de prédiction linéaire 1-d et 2-d. - La mise en place de stratégies de choix de modèles par rapport à des contextes variés comme l'imagerie TEP et les lois de mélange de Gauss et de Poisson ou les espaces couleur et les lois de mélange gaussiennes multidimensionnelles. - L'exploration des modèles de prédiction linéaire vectorielle complexe sur les images représentées dans des espaces couleur séparant l'intensité lumineuse de la partie chromatique et l'usage qui peut en être fait en caractérisation de textures afin de les classifier ou de segmenter les images texturées couleur. \item Des apports en segmentation : optimisation d'une méthode de segmentation non-supervisée d'images texturées en niveaux de gris ; une nouvelle méthode supervisée de segmentation d'images texturées couleur exploitant les espaces couleur psychovisuels et les erreurs de prédiction linéaire vectorielle complexe ; prise en compte dans des distributions de Gibbs d'informations géométriques et topologiques sur le champ des régions afin de réaliser de la segmentation 3-d ``haut-niveau'' exploitant le formalisme des processus ponctuels. - L'illustration des méthodes MCMC dans des contextes divers comme l'estimation de paramètres, l'obtention de segmentations 2-d ou 3-d ou la simulation de processus. Et beaucoup d'autres éléments se révèleront à sa lecture ...
20

Probabilistic and Bayesian nonparametric approaches for recommender systems and networks / Approches probabilistes et bayésiennes non paramétriques pour les systemes de recommandation et les réseaux

Todeschini, Adrien 10 November 2016 (has links)
Nous proposons deux nouvelles approches pour les systèmes de recommandation et les réseaux. Dans la première partie, nous donnons d’abord un aperçu sur les systèmes de recommandation avant de nous concentrer sur les approches de rang faible pour la complétion de matrice. En nous appuyant sur une approche probabiliste, nous proposons de nouvelles fonctions de pénalité sur les valeurs singulières de la matrice de rang faible. En exploitant une représentation de modèle de mélange de cette pénalité, nous montrons qu’un ensemble de variables latentes convenablement choisi permet de développer un algorithme espérance-maximisation afin d’obtenir un maximum a posteriori de la matrice de rang faible complétée. L’algorithme résultant est un algorithme à seuillage doux itératif qui adapte de manière itérative les coefficients de réduction associés aux valeurs singulières. L’algorithme est simple à mettre en œuvre et peut s’adapter à de grandes matrices. Nous fournissons des comparaisons numériques entre notre approche et de récentes alternatives montrant l’intérêt de l’approche proposée pour la complétion de matrice à rang faible. Dans la deuxième partie, nous présentons d’abord quelques prérequis sur l’approche bayésienne non paramétrique et en particulier sur les mesures complètement aléatoires et leur extension multivariée, les mesures complètement aléatoires composées. Nous proposons ensuite un nouveau modèle statistique pour les réseaux creux qui se structurent en communautés avec chevauchement. Le modèle est basé sur la représentation du graphe comme un processus ponctuel échangeable, et généralise naturellement des modèles probabilistes existants à structure en blocs avec chevauchement au régime creux. Notre construction s’appuie sur des vecteurs de mesures complètement aléatoires, et possède des paramètres interprétables, chaque nœud étant associé un vecteur représentant son niveau d’affiliation à certaines communautés latentes. Nous développons des méthodes pour simuler cette classe de graphes aléatoires, ainsi que pour effectuer l’inférence a posteriori. Nous montrons que l’approche proposée peut récupérer une structure interprétable à partir de deux réseaux du monde réel et peut gérer des graphes avec des milliers de nœuds et des dizaines de milliers de connections. / We propose two novel approaches for recommender systems and networks. In the first part, we first give an overview of recommender systems and concentrate on the low-rank approaches for matrix completion. Building on a probabilistic approach, we propose novel penalty functions on the singular values of the low-rank matrix. By exploiting a mixture model representation of this penalty, we show that a suitably chosen set of latent variables enables to derive an expectation-maximization algorithm to obtain a maximum a posteriori estimate of the completed low-rank matrix. The resulting algorithm is an iterative soft-thresholded algorithm which iteratively adapts the shrinkage coefficients associated to the singular values. The algorithm is simple to implement and can scale to large matrices. We provide numerical comparisons between our approach and recent alternatives showing the interest of the proposed approach for low-rank matrix completion. In the second part, we first introduce some background on Bayesian nonparametrics and in particular on completely random measures (CRMs) and their multivariate extension, the compound CRMs. We then propose a novel statistical model for sparse networks with overlapping community structure. The model is based on representing the graph as an exchangeable point process, and naturally generalizes existing probabilistic models with overlapping block-structure to the sparse regime. Our construction builds on vectors of CRMs, and has interpretable parameters, each node being assigned a vector representing its level of affiliation to some latent communities. We develop methods for simulating this class of random graphs, as well as to perform posterior inference. We show that the proposed approach can recover interpretable structure from two real-world networks and can handle graphs with thousands of nodes and tens of thousands of edges.

Page generated in 0.0681 seconds