Global ETD Search

21	Modélisation et classification dynamique de données temporelles non stationnaires / Dynamic classification and modeling of non-stationary temporal data El Assaad, Hani 11 December 2014 (has links) Cette thèse aborde la problématique de la classification non supervisée de données lorsque les caractéristiques des classes sont susceptibles d'évoluer au cours du temps. On parlera également, dans ce cas, de classification dynamique de données temporelles non stationnaires. Le cadre applicatif des travaux concerne le diagnostic par reconnaissance des formes de systèmes complexes dynamiques dont les classes de fonctionnement peuvent, suite à des phénomènes d'usures, des déréglages progressifs ou des contextes d'exploitation variables, évoluer au cours du temps. Un modèle probabiliste dynamique, fondé à la fois sur les mélanges de lois et sur les modèles dynamiques à espace d'état, a ainsi été proposé. Compte tenu de la structure complexe de ce modèle, une variante variationnelle de l'algorithme EM a été proposée pour l'apprentissage de ses paramètres. Dans la perspective du traitement rapide de flux de données, une version séquentielle de cet algorithme a également été développée, ainsi qu'une stratégie de choix dynamique du nombre de classes. Une série d'expérimentations menées sur des données simulées et des données réelles acquises sur le système d'aiguillage des trains a permis d'évaluer le potentiel des approches proposées / Nowadays, diagnosis and monitoring for predictive maintenance of railway components are important key subjects for both operators and manufacturers. They seek to anticipate upcoming maintenance actions, reduce maintenance costs and increase the availability of rail network. In order to maintain the components at a satisfactory level of operation, the implementation of reliable diagnostic strategy is required. In this thesis, we are interested in a main component of railway infrastructure, the railway switch; an important safety device whose failure could heavily impact the availability of the transportation system. The diagnosis of this system is therefore essential and can be done by exploiting sequential measurements acquired successively while the state of the system is evolving over time. These measurements consist of power consumption curves that are acquired during several switch operations. The shape of these curves is indicative of the operating state of the system. The aim is to track the temporal dynamic evolution of railway component state under different operating contexts by analyzing the specific data in order to detect and diagnose problems that may lead to functioning failure. This thesis tackles the problem of temporal data clustering within a broader context of developing innovative tools and decision-aid methods. We propose a new dynamic probabilistic approach within a temporal data clustering framework. This approach is based on both Gaussian mixture models and state-space models. The main challenge facing this work is the estimation of model parameters associated with this approach because of its complex structure. In order to meet this challenge, a variational approach has been developed. The results obtained on both synthetic and real data highlight the advantage of the proposed algorithms compared to other state of the art methods in terms of clustering and estimation accuracy Diagnostic Classification automatique Modèle de mélange Données temporelles non stationnaires Classes évolutives Filtre de Kalman Diagnosis Clustering Dynamic latent variable model Temporal data clustering Evolving clusters Kalman filter
22	Dynamic stochastic block models, clustering and segmentation in dynamic graphs / Modèles à bloques stochastiques dynamiques pour la classification et la segmentation des graphes dynamiques Corneli, Marco 17 November 2017 (has links) Cette thèse porte sur l’analyse de graphes dynamiques, définis en temps discret ou continu. Nous introduisons une nouvelle extension dynamique du modèle a blocs stochastiques (SBM), appelée dSBM, qui utilise des processus de Poisson non homogènes pour modéliser les interactions parmi les paires de nœuds d’un graphe dynamique. Les fonctions d’intensité des processus ne dépendent que des classes des nœuds comme dans SBM. De plus, ces fonctions d’intensité ont des propriétés de régularité sur des intervalles temporels qui sont à estimer, et à l’intérieur desquels les processus de Poisson redeviennent homogènes. Un récent algorithme d’estimation pour SBM, qui repose sur la maximisation d’un critère exact (ICL exacte) est ici adopté pour estimer les paramètres de dSBM et sélectionner simultanément le modèle optimal. Ensuite, un algorithme exact pour la détection de rupture dans les séries temporelles, la méthode «pruned exact linear time» (PELT), est étendu pour faire de la détection de rupture dans des données de graphe dynamique selon le modèle dSBM. Enfin, le modèle dSBM est étendu ultérieurement pour faire de l’analyse de réseau textuel dynamique. Les réseaux sociaux sont un exemple de réseaux textuels: les acteurs s’échangent des documents (posts, tweets, etc.) dont le contenu textuel peut être utilisé pour faire de la classification et détecter la structure temporelle du graphe dynamique. Le modèle que nous introduisons est appelé «dynamic stochastic topic block model» (dSTBM). / This thesis focuses on the statistical analysis of dynamic graphs, both defined in discrete or continuous time. We introduce a new extension of the stochastic block model (SBM) for dynamic graphs. The proposed approach, called dSBM, adopts non homogeneous Poisson processes to model the interaction times between pairs of nodes in dynamic graphs, either in discrete or continuous time. The intensity functions of the processes only depend on the node clusters, in a block modelling perspective. Moreover, all the intensity functions share some regularity properties on hidden time intervals that need to be estimated. A recent estimation algorithm for SBM, based on the greedy maximization of an exact criterion (exact ICL) is adopted for inference and model selection in dSBM. Moreover, an exact algorithm for change point detection in time series, the "pruned exact linear time" (PELT) method is extended to deal with dynamic graph data modelled via dSBM. The approach we propose can be used for change point analysis in graph data. Finally, a further extension of dSBM is developed to analyse dynamic net- works with textual edges (like social networks, for instance). In this context, the graph edges are associated with documents exchanged between the corresponding vertices. The textual content of the documents can provide additional information about the dynamic graph topological structure. The new model we propose is called "dynamic stochastic topic block model" (dSTBM).Graphs are mathematical structures very suitable to model interactions between objects or actors of interest. Several real networks such as communication networks, financial transaction networks, mobile telephone networks and social networks (Facebook, Linkedin, etc.) can be modelled via graphs. When observing a network, the time variable comes into play in two different ways: we can study the time dates at which the interactions occur and/or the interaction time spans. This thesis only focuses on the first time dimension and each interaction is assumed to be instantaneous, for simplicity. Hence, the network evolution is given by the interaction time dates only. In this framework, graphs can be used in two different ways to model networks. Discrete time […] Continuous time […]. In this thesis both these perspectives are adopted, alternatively. We consider new unsupervised methods to cluster the vertices of a graph into groups of homogeneous connection profiles. In this manuscript, the node groups are assumed to be time invariant to avoid possible identifiability issues. Moreover, the approaches that we propose aim to detect structural changes in the way the node clusters interact with each other. The building block of this thesis is the stochastic block model (SBM), a probabilistic approach initially used in social sciences. The standard SBM assumes that the nodes of a graph belong to hidden (disjoint) clusters and that the probability of observing an edge between two nodes only depends on their clusters. Since no further assumption is made on the connection probabilities, SBM is a very flexible model able to detect different network topologies (hubs, stars, communities, etc.). Analyse de réseaux dynamiques Classification non supervisée Apprentissage statistiques Modèle de mélange Maximum de vraisemblance Sélection de modèle Scholastic block model Latent Dirichlet allocation Pruned exact linear time 519
23	Modèles de mélange et de Markov caché non-paramétriques : propriétés asymptotiques de la loi a posteriori et efficacité / Non Parametric Mixture Models and Hidden Markov Models : Asymptotic Behaviour of the Posterior Distribution and Efficiency Vernet, Elodie, Edith 15 November 2016 (has links) Les modèles latents sont très utilisés en pratique, comme en génomique, économétrie, reconnaissance de parole... Comme la modélisation paramétrique des densités d’émission, c’est-à-dire les lois d’une observation sachant l’état latent, peut conduire à de mauvais résultats en pratique, un récent intérêt pour les modèles latents non paramétriques est apparu dans les applications. Or ces modèles ont peu été étudiés en théorie. Dans cette thèse je me suis intéressée aux propriétés asymptotiques des estimateurs (dans le cas fréquentiste) et de la loi a posteriori (dans le cadre Bayésien) dans deux modèles latents particuliers : les modèles de Markov caché et les modèles de mélange. J’ai tout d’abord étudié la concentration de la loi a posteriori dans les modèles non paramétriques de Markov caché. Plus précisément, j’ai étudié la consistance puis la vitesse de concentration de la loi a posteriori. Enfin je me suis intéressée à l’estimation efficace du paramètre de mélange dans les modèles semi paramétriques de mélange. / Latent models have been widely used in diverse fields such as speech recognition, genomics, econometrics. Because parametric modeling of emission distributions, that is the distributions of an observation given the latent state, may lead to poor results in practice, in particular for clustering purposes, recent interest in using non parametric latent models appeared in applications. Yet little thoughts have been given to theory in this framework. During my PhD I have been interested in the asymptotic behaviour of estimators (in the frequentist case) and the posterior distribution (in the Bayesian case) in two particuliar non parametric latent models: hidden Markov models and mixture models. I have first studied the concentration of the posterior distribution in non parametric hidden Markov models. More precisely, I have considered posterior consistency and posterior concentration rates. Finally, I have been interested in efficient estimation of the mixture parameter in semi parametric mixture models. Statistiques asymptotiques Chaines de Markov cachés Modèle de mélange Statistique non paramétriques Statistiques Bayésienne Asymptotic statistics Hidden Markov model Mixture model Non parametrics Bayesian statistics
24	Modèle de mélange et modèles linéaires généralisés, application aux données de co-infection (arbovirus & paludisme) / Mixture model and generalized linear models, application to co-infection data (arbovirus & malaria) Loum, Mor Absa 28 August 2018 (has links) Nous nous intéressons, dans cette thèse, à l'étude des modèles de mélange et des modèles linéaires généralisés, avec une application aux données de co-infection entre les arbovirus et les parasites du paludisme. Après une première partie consacrée à l'étude de la co-infection par un modèle logistique multinomial, nous proposons dans une deuxième partie l'étude des mélanges de modèles linéaires généralisés. La méthode proposée pour estimer les paramètres du mélange est une combinaison d'une méthode des moments et d'une méthode spectrale. Nous proposons à la fin une dernière partie consacrée aux mélanges de valeurs extrêmes en présence de censure. La méthode d'estimation proposée dans cette partie se fait en deux étapes basées sur la maximisation d'une vraisemblance. / We are interested, in this thesis, to the study of mixture models and generalized linear models, with an application to co-infection data between arboviruses and malaria parasites. After a first part dedicated to the study of co-infection using a multinomial logistic model, we propose in a second part to study the mixtures of generalized linear models. The proposed method to estimate the parameters of the mixture is a combination of a moment method and a spectral method. Finally, we propose a final section for studing extreme value mixtures under random censoring. The estimation method proposed in this section is done in two steps based on the maximization of a likelihood. Modèle de mélange Modèles linéaires généralisés Méthode spectrale Co-Infection Méthode des moments Théorie des valeurs extrêmes Mixture model Generalized linear mode Spectral method Co-Infection Moments method Extreme value theory
25	Modèles de mélange de von Mises-Fisher / Von Mises-Fisher mixture models Parr Bouberima, Wafia 15 November 2013 (has links) Dans la vie actuelle, les données directionnelles sont présentes dans la majorité des domaines, sous plusieurs formes, différents aspects et de grandes tailles/dimensions, d'où le besoin de méthodes d'étude efficaces des problématiques posées dans ce domaine. Pour aborder le problème de la classification automatique, l'approche probabiliste est devenue une approche classique, reposant sur l'idée simple : étant donné que les g classes sont différentes entre elles, on suppose que chacune suit une loi de probabilité connue, dont les paramètres sont en général différents d'une classe à une autre; on parle alors de modèle de mélange de lois de probabilités. Sous cette hypothèse, les données initiales sont considérées comme un échantillon d'une variable aléatoire d-dimensionnelle dont la densité est un mélange de g distributions de probabilités spécifiques à chaque classe. Dans cette thèse nous nous sommes intéressés à la classification automatique de données directionnelles, en utilisant des méthodes de classification les mieux adaptées sous deux approches: géométrique et probabiliste. Dans la première, en explorant et comparant des algorithmes de type kmeans; dans la seconde, en s'attaquant directement à l'estimation des paramètres à partir desquels se déduit une partition à travers la maximisation de la log-vraisemblance, représentée par l'algorithme EM. Pour cette dernière approche, nous avons repris le modèle de mélange de distributions de von Mises-Fisher, nous avons proposé des variantes de l'algorithme EMvMF, soit CEMvMF, le SEMvMF et le SAEMvMF, dans le même contexte, nous avons traité le problème de recherche du nombre de composants et le choix du modèle de mélange, ceci en utilisant quelques critères d'information : Bic, Aic, Aic3, Aic4, Aicc, Aicu, Caic, Clc, Icl-Bic, Ll, Icl, Awe. Nous terminons notre étude par une comparaison du modèle vMF avec un modèle exponentiel plus simple ; à l'origine ce modèle part du principe que l'ensemble des données est distribué sur une hypersphère de rayon ρ prédéfini, supérieur ou égal à un. Nous proposons une amélioration du modèle exponentiel qui sera basé sur une étape estimation du rayon ρ au cours de l'algorithme NEM. Ceci nous a permis dans la plupart de nos applications de trouver de meilleurs résultats; en proposant de nouvelles variantes de l'algorithme NEM qui sont le NEMρ , NCEMρ et le NSEMρ. L'expérimentation des algorithmes proposés dans ce travail a été faite sur une variété de données textuelles, de données génétiques et de données simulées suivant le modèle de von Mises-Fisher (vMF). Ces applications nous ont permis une meilleure compréhension des différentes approches étudiées le long de cette thèse. / In contemporary life directional data are present in most areas, in several forms, aspects and large sizes / dimensions; hence the need for effective methods of studying the existing problems in these fields. To solve the problem of clustering, the probabilistic approach has become a classic approach, based on the simple idea: since the g classes are different from each other, it is assumed that each class follows a distribution of probability, whose parameters are generally different from one class to another. We are concerned here with mixture modelling. Under this assumption, the initial data are considered as a sample of a d-dimensional random variable whose density is a mixture of g distributions of probability where each one is specific to a class. In this thesis we are interested in the clustering of directional data that has been treated using known classification methods which are the most appropriate for this case. In which both approaches the geometric and the probabilistic one have been considered. In the first, some kmeans like algorithms have been explored and considered. In the second, by directly handling the estimation of parameters from which is deduced the partition maximizing the log-likelihood, this approach is represented by the EM algorithm. For the latter approach, model mixtures of distributions of von Mises-Fisher have been used, proposing variants of the EM algorithm: EMvMF, the CEMvMF, the SEMvMF and the SAEMvMF. In the same context, the problem of finding the number of the components in the mixture and the choice of the model, using some information criteria {Bic, Aic, Aic3, Aic4, AICC, AICU, CAIC, Clc, Icl-Bic, LI, Icl, Awe} have been discussed. The study concludes with a comparison of the used vMF model with a simpler exponential model. In the latter, it is assumed that all data are distributed on a hypersphere of a predetermined radius greater than one, instead of a unit hypersphere in the case of the vMF model. An improvement of this method based on the estimation step of the radius in the algorithm NEMρ has been proposed: this allowed us in most of our applications to find the best partitions; we have developed also the NCEMρ and NSEMρ algorithms. The algorithms proposed in this work were performed on a variety of textual data, genetic data and simulated data according to the vMF model; these applications gave us a better understanding of the different studied approaches throughout this thesis. Analyse des données Données directionnelles Modèle de mélange Distribution de von Mises Fisher Cluster analysis Directional data Mixture model Von Mises Fisher distribution 519.2
26	Classification et inférence de réseaux pour les données RNA-seq / Clustering and network inference for RNA-seq data Gallopin, Mélina 09 December 2015 (has links) Cette thèse regroupe des contributions méthodologiques à l'analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de travaux de cette thèse porte sur la classification à l'aide de modèle de mélange. L'objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l'aide d'un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. Une seconde partie de travaux de cette thèse porte sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Nous proposons un modèle d'inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d'inférence de réseau nécessitent un nombre d'échantillons élevé.Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien. / This thesis gathers methodologicals contributions to the statistical analysis of next-generation high-throughput transcriptome sequencing data (RNA-seq). RNA-seq data are discrete and the number of samples sequenced is usually small due to the cost of the technology. These two points are the main statistical challenges for modelling RNA-seq data.The first part of the thesis is dedicated to the co-expression analysis of RNA-seq data using model-based clustering. A natural model for discrete RNA-seq data is a Poisson mixture model. However, a Gaussian mixture model in conjunction with a simple transformation applied to the data is a reasonable alternative. We propose to compare the two alternatives using a data-driven criterion to select the model that best fits each dataset. In addition, we present a model selection criterion to take into account external gene annotations. This model selection criterion is not specific to RNA-seq data. It is useful in any co-expression analysis using model-based clustering designed to enrich functional annotation databases.The second part of the thesis is dedicated to network inference using graphical models. The aim of network inference is to detect relationships among genes based on their expression. We propose a network inference model based on a Poisson distribution taking into account the discrete nature and high inter sample variability of RNA-seq data. However, network inference methods require a large number of samples. For Gaussian graphical models, we propose a non-asymptotic approach to detect relevant subsets of genes based on a block-diagonale decomposition of the covariance matrix. This method is not specific to RNA-seq data and reduces the dimension of any network inference problem based on the Gaussian graphical model. Modèle de mélange Modèle graphique RNA-Seq data Classification Inférence de réseau Sélection de modèle Mixture model Graphical model selection RNA-Seq data Clustering Network inference Model selection
27	Méthodes longitudinales pour l’analyse de la qualité de vie relative à la santé en cancérologie / Longitudinal methods for the health-related quality of life analysis in oncology Barbieri, Antoine 27 June 2016 (has links) L’étude de la qualité de vie relative à la santé est un objectif prioritaire des essais cliniques en cancérologie pour évaluer l’efficacité d’une prise en charge ; elle est mesurée par le biais d’auto-questionnaire. Dans ce travail, nous proposons différentes modélisations statistiques pour l’analyse longitudinale de ce critère, ainsi que leur application sur des données issues de plusieurs essais cliniques. Une première partie présente les modèles issus de la théorie de réponse à l’item (IRT) pour réaliser une analyse longitudinale directement sur les données brutes (multi-réponses ordinales) et ce par dimension. Une fois replacés dans le contexte des modèles linéaires généralisés mixtes, une sélection conceptuelle de modèles IRT a conclu que le Graded response model semble le mieux adapté. Dans une seconde partie, nous proposons un modèle à équation structurelle permettant de prendre en compte conjointement l’aspect multidimensionnel et longitudinal de la qualité de vie. À l’aide de facteurs reflétés par des ensembles de variables observées, il permet de lier à chaque temps de mesure toutes les observations issues du questionnaire, tout en considérant également des variables explicatives. L’analyse longitudinale est réalisée sur le statut global de santé et les facteurs réduisant ainsi le nombre de tests. Enfin, une approche par mélanges de modèles mixtes est proposée pour obtenir des classes latentes à partir de trajectoires de qualité de vie. Cette approche a permis de caractériser des sous-populations homogènes et d’associer différente évolution de la qualité de vie suivant des profils particuliers de patients. / The health-related quality of life is a major objective in oncology clinical trials to improve patients’ care and better evaluate the impact of the treatments on their everyday life. Auto-questionnaires are usually used to measure this endpoint. In this work, different statistical models for the longitudinal analysis of health-related quality of life in oncology are proposed and applied to clinical trial data. First, we present different models derived from the item response theory (IRT) to achieve a longitudinal analysis directly on raw data (multi-response outcomes) for each dimension. Within the generalized linear mixed model background, a conceptual selection of the IRT models concluded that the graded response model seems to be the most suitable. Then, we propose a structural equation model which allows taking into account the multidimensional nature of data at each time and the longitudinal aspect induced by the repeated measurements. At each measurement time, the model allows to link all the observed variables issued from the questionnaire given explanatory variables. Two factors are estimated, each summarizing a set of observed variables. The longitudinal analysis is performed on the global health status and on the factors, thus reducing the number of tests. Finally, an approach based on a mixture of mixed models is used to obtain latent classes from quality of life trajectories. The approach has resulted in the identification of homogeneous subpopulations and their latent trajectory according to specific patient profiles. Qualité de vie relative à la santé Analyses longitudinales Modèles mixtes Modèles IRT Modèle à équation structurelle Modèle de mélange Health-Related quality of life Longitunal analysis Mixed models IRT Models Structural equation modeling Mixture models
28	Model-based clustering and model selection for binned data. / Classification automatique à base de modèle et choix de modèles pour les données discrétisées Wu, Jingwen 28 January 2014 (has links) Cette thèse étudie les approches de classification automatique basées sur les modèles de mélange gaussiens et les critères de choix de modèles pour la classification automatique de données discrétisées. Quatorze algorithmes binned-EM et quatorze algorithmes bin-EM-CEM sont développés pour quatorze modèles de mélange gaussiens parcimonieux. Ces nouveaux algorithmes combinent les avantages des données discrétisées en termes de réduction du temps d’exécution et les avantages des modèles de mélange gaussiens parcimonieux en termes de simplification de l'estimation des paramètres. Les complexités des algorithmes binned-EM et bin-EM-CEM sont calculées et comparées aux complexités des algorithmes EM et CEM respectivement. Afin de choisir le bon modèle qui s'adapte bien aux données et qui satisfait les exigences de précision en classification avec un temps de calcul raisonnable, les critères AIC, BIC, ICL, NEC et AWE sont étendus à la classification automatique de données discrétisées lorsque l'on utilise les algorithmes binned-EM et bin-EM-CEM proposés. Les avantages des différentes méthodes proposées sont illustrés par des études expérimentales. / This thesis studies the Gaussian mixture model-based clustering approaches and the criteria of model selection for binned data clustering. Fourteen binned-EM algorithms and fourteen bin-EM-CEM algorithms are developed for fourteen parsimonious Gaussian mixture models. These new algorithms combine the advantages in computation time reduction of binning data and the advantages in parameters estimation simplification of parsimonious Gaussian mixture models. The complexities of the binned-EM and the bin-EM-CEM algorithms are calculated and compared to the complexities of the EM and the CEM algorithms respectively. In order to select the right model which fits well the data and satisfies the clustering precision requirements with a reasonable computation time, AIC, BIC, ICL, NEC, and AWE criteria, are extended to binned data clustering when the proposed binned-EM and bin-EM-CEM algorithms are used. The advantages of the different proposed methods are illustrated through experimental studies. Classification automatique Modèle de mélange gaussien Modèles parcimonieux Choix de modèle Binned-EM Bin-EM-CEM BIC ICL Clustering Gaussian mixture model Parsimonious models Model selection Binned-EM Bin-EM-CEM BIC ICL 378.242
29	Méthodes de séparation aveugle de sources et application à l'imagerie hyperspectrale en astrophysique / Blind source separation methods and applications to astrophysical hyperspectral data Boulais, Axel 15 December 2017 (has links) Ces travaux de thèse concernent le développement de nouvelles méthodes de séparation aveugle de mélanges linéaires instantanés pour des applications à des données hyperspectrales en astrophysique. Nous avons proposé trois approches pour effectuer la séparation des données. Une première contribution est fondée sur l'hybridation de deux méthodes existantes de séparation aveugle de source (SAS) : la méthode SpaceCORR nécessitant une hypothèse de parcimonie et une méthode de factorisation en matrices non négatives (NMF). Nous montrons que l'utilisation des résultats de SpaceCORR pour initialiser la NMF permet d'améliorer les performances des méthodes utilisées seules. Nous avons ensuite proposé une première méthode originale permettant de relâcher la contrainte de parcimonie de SpaceCORR. La méthode MASS (pour \textit{Maximum Angle Source Separation}) est une méthode géométrique basée sur l'extraction de pixels mono-sources pour réaliser la séparation des données. Nous avons également étudié l'hybridation de MASS avec la NMF. Enfin, nous avons proposé une seconde approche permettant de relâcher la contrainte de parcimonie de SpaceCORR. La méthode originale SIBIS (pour \textit{Subspace-Intersection Blind Identification and Separation}) est une méthode géométrique basée sur l'identification de l'intersection de sous-espaces engendrés par des régions de l'image hyperspectrale. Ces intersections permettent, sous une hypothèse faible de parcimonie, de réaliser la séparation des données. L'ensemble des approches proposées dans ces travaux ont été validées par des tests sur données simulées puis appliquées sur données réelles. Les résultats obtenus sur ces données sont très encourageants et sont comparés à ceux obtenus par des méthodes de la littérature. / This thesis deals with the development of new blind separation methods for linear instantaneous mixtures applicable to astrophysical hyperspectral data sets. We propose three approaches to perform data separation. A first contribution is based on hybridization of two existing blind source separation (BSS) methods: the SpaceCORR method, requiring a sparsity assumption, and a non-negative matrix factorization (NMF) method. We show that using SpaceCORR results to initialize the NMF improves the performance of the methods used alone. We then proposed a first original method to relax the sparsity constraint of SpaceCORR. The method called MASS (Maximum Angle Source Separation) is a geometric method based on the extraction of single-source pixels to achieve the separation of data. We also studied the hybridization of MASS with the NMF. Finally, we proposed an approach to relax the sparsity constraint of SpaceCORR. The original method called SIBIS (Subspace-Intersection Blind Identification and Separation) is a geometric method based on the identification of intersections of subspaces generated by regions of the hyperspectral image. Under a sparsity assumption, these intersections allow one to achieve the separation of the data. The approaches proposed in this manuscript have been validated by experimentations on simulated data and then applied to real data. The results obtained on our data are very encouraging and are compared with those obtained by methods from the literature. Image hyperspectrale Séparation aveugle de sources (SAS) Modèle de mélange linéaire Parcimonie Méthodes géométriques Hyperspectral imaging Blind source separation (BSS) Linear mixing model Sparsity
30	Contribution à la modélisation des durées de séjour du CHU de Grenoble Delhumeau, Cécile 06 December 2002 (has links) (PDF) Cette thèse propose une méthodologie permettant l'identification des groupes homogènes de malades (GHM) du Centre Hospitalier Universitaire (CHU) de Grenoble dont la durée de séjour (DS) s'écarte de la "référence nationale", mais aussi d'identifier la présence d'éventuels groupes d'"outliers" (patients avec des DS extrêmes) dans ces GHM. L'enjeu est de taille : des séjours longs entraînent une occupation des lits supérieure à ce que permet la valorisation financière correspondant à la pathologie prise en charge. Il est donc important de repérer ces GHM, responsables du coût élevé du point Indice Synthétique d'Activité (ISA), unité d'oeuvre des hôpitaux utilisée par le Programme de Médicalisation des Systèmes d'Information pour connaître leur activité, leur allouer le budget correspondant, et contraindre à une productivité optimale. Les écarts entre la distribution des DS des GHM grenoblois et celle de leurs homologues de la base nationale ont été comparés. Pour chaque GHM, un profil, fondé sur la comparaison des quartiles de DS des distributions nationales et grenobloises, deux à deux, a été construit. Des méthodes statistiques de classification (analyse en composantes principales, classification hiérarchique, analyse discriminante et modèles de mélange) ont été utilisées pour repérer aisément et sûrement les GHM économiquement coûteux. De manière empirique, les profils grenoblois semblent se structurer en 9 catégories. La classification hiérarchique identifie 4 catégories de GHM, dont une particulière comptant 16 GHM, dans laquelle un tiers des patients participe fortement à la dérive en points ISA du CHU, et pour qui la mise en place d'une action économiquement rentable serait aisée. Le modèle de mélange montre que les GHM se structurent en 3 catégories et permet de valider la classification issue de l'approche multidimensionnelle. [SDV:OT] Life Sciences/Other [SDV:OT] Sciences du Vivant/Autre durées de séjour (DS) Groupe Homogène de Malades (GHM) analyse en composante principale classification hiérarchique analyse discriminante modèle de mélange

Search results