Global ETD Search

1	Méthodes de carte auto-organisatrice par mélange de lois contraintes. Application à l'exploration dans les tableaux de contingence textuels Priam, Rodolphe 17 October 2003 (has links) (PDF) Cette thèse d'intéresse à l'analyse exploratoire des données multimdimensionnelles souvent qualitatives voire textuelles par des modèles particuliers de carte auto-organisatrice de Kohonen. Il s'agit d'effectuer une classification et une projection simultanées des lignes ou colonnes d'une matrice de données. Le résultat de ces méthodes est une réduction sous la forme d'une surface de régression discrète. Nous étudions plus particulièrement les modèles de mélange de lois de probabilité : les paramètres correspondant aux espérances des vecteurs classés sont contraints en les plaçant aux nœuds d'une grille rectangulaire. Après une présentation de ces méthodes, et des algorithmes d'estimation basés sur l'EM (Expectation - Maximization), nous introduisons essentiellement deux nouvelles approches. La première vise à "généraliser la méthode d'Analyse Factorielle des Correspondances" aux grandes matrices : l'algorithme CASOM est un classifieur naïf de Bayes contraint en un TPEM (Topology Preserving EM) pour tableau de contingence. La seconde consiste en un schéma général d'adaptation des méthodes de segmentation d'image en carte auto-organisatrice. Pour l'illustrer, nous modifions un algorithme de segmentation par champs moyens, et obtenons un algorithme appelé TNEM. Nous utilisons ces méthodes pour aider à la navigation dans un corpus textuel. En effet, nous aboutissons à des critères et des moyens de représentation objectifs. carte auto-organisatrice
2	Modélisation statistique de l’érosion de cavitation d’une turbine hydraulique selon les paramètres d’opération Bodson-Clermont, Paule-Marjolaine 03 1900 (has links) Dans une turbine hydraulique, la rotation des aubes dans l’eau crée une zone de basse pression, amenant l’eau à passer de l’état liquide à l’état gazeux. Ce phénomène de changement de phase est appelé cavitation et est similaire à l’ébullition. Lorsque les cavités de vapeur formées implosent près des parois, il en résulte une érosion sévère des matériaux, accélérant de façon importante la dégradation de la turbine. Un système de détection de l’érosion de cavitation à l’aide de mesures vibratoires, employable sur les turbines en opération, a donc été installé sur quatre groupes turbine-alternateur d’une centrale et permet d’estimer précisément le taux d’érosion en kg/ 10 000 h. Le présent projet vise à répondre à deux objectifs principaux. Premièrement, étudier le comportement de la cavitation sur un groupe turbine-alternateur cible et construire un modèle statistique, dans le but de prédire la variable cavitation en fonction des variables opératoires (tels l’ouverture de vannage, le débit, les niveaux amont et aval, etc.). Deuxièmement, élaborer une méthodologie permettant la reproductibilité de l’étude à d’autres sites. Une étude rétrospective sera effectuée et on se concentrera sur les données disponibles depuis la mise à jour du système en 2010. Des résultats préliminaires ont mis en évidence l’hétérogénéité du comportement de cavitation ainsi que des changements entre la relation entre la cavitation et diverses variables opératoires. Nous nous proposons de développer un modèle probabiliste adapté, en utilisant notamment le regroupement hiérarchique et des modèles de régression linéaire multiple. / Cavitation erosion which results from repeated collapse of transient vapor cavities on solid surfaces is a constant problematic in hydraulic turbine runners and continues to enforce costly repair and loss of revenues. A vibratory detection system of cavitation erosion was installed 10 years ago for continuous monitoring of 4 hydropower units. A new hardware version of the system was developed and installed in 2010. This new system configuration is more reliable and allows more accurate evaluation of the cavitation erosion of the runners in kg/10 000 h. The first objective of this study is to investigate cavitation behavior upon one generating unit and to build a statistical model which will allow prediction of instant cavitation related to operating variables, such as gate opening, water flow, headwater level, tailwater levels, etc. The second objective is to develop a methodology for the reproducibility of the studies to other sites. A retrospective study will be conducted and we will mainly focus on data available since the system update in 2010. The preliminary analysis enhanced the complexity of the phenomenon. Indeed, changes in the relationship between cavitation and various operating variables were observed and could be due to a seasonal behavior or different operating conditions. Using hierarchical clustering and regression models, we formalize this heterogeneity by developing a model which includes operating variables such as active power, tailwater level and gate opening. Cavitation Turbine Francis Mélange de lois Statistique Opération Regroupement hiérarchique Régression linéaire multiple Francis turbine Mixture model Hierarchical clustering Multiple linear regression
3	Analyse de données de cytometrie de flux pour un grand nombre d'échantillons / Automated flow cytometric analysis across a large number of samples Chen, Xiaoyi 06 October 2015 (has links) Cette thèse a conduit à la mise au point de deux nouvelles approches statistiques pour l'identification automatique de populations cellulaires en cytometrie de flux multiparamétrique, et ceci pour le traitement d'un grand nombre d'échantillons, chaque échantillon étant prélevé sur un donneur particulier. Ces deux approches répondent à des besoins exprimés dans le cadre du projet Labex «Milieu Intérieur». Dix panels cytométriques de 8 marqueurs ont été sélectionnés pour la quantification des populations principales et secondaires présentes dans le sang périphérique. Sur la base de ces panels, les données ont été acquises et analysées sur une cohorte de 1000 donneurs sains.Tout d'abord, nous avons recherché une quantification robuste des principales composantes cellulaires du système immunitaire. Nous décrivons une procédure computationnelle, appelée FlowGM, qui minimise l'intervention de l'utilisateur. Le cœur statistique est fondé sur le modèle classique de mélange de lois gaussiennes. Ce modèle est tout d'abord utilisé pour obtenir une classification initiale, le nombre de classes étant déterminé par le critère d'information BIC. Après cela, une méta-classification, qui consiste en l'étiquetage des classes et la fusion de celles qui ont la même étiquette au regard de la référence, a permis l'identification automatique de 24 populations cellulaires sur quatre panels. Ces identifications ont ensuite été intégrées dans les fichiers de cytométrie de flux standard (FCS), permettant ainsi la comparaison avec l'analyse manuelle opérée par les experts. Nous montrons que la qualité est similaire entre FlowGM et l'analyse manuelle classique pour les lymphocytes, mais notamment que FlowGM montre une meilleure discrimination des sous-populations de monocytes et de cellules dendritiques (DC), qui sont difficiles à obtenir manuellement. FlowGM fournit ainsi une analyse rapide de phénotypes cellulaires et se prête à des études de cohortes.A des fins d'évaluation, de diagnostic et de recherche, une analyse tenant compte de l'influence de facteurs, comme par exemple les effets du protocole, l'effet de l'âge et du sexe, a été menée. Dans le contexte du projet MI, les 1000 donneurs sains ont été stratifiés selon le sexe et l'âge. Les résultats de l'analyse quantitative faite avec FlowGM ont été jugés concordants avec l'analyse manuelle qui est considérée comme l'état de l'art. On note surtout une augmentation de la précision pour les populations CD16+ et CDC1, où les sous-populations CD14loCD16hi et HLADRhi CDC1 ont été systématiquement identifiées. Nous démontrons que les effectifs de ces deux populations présentent une corrélation significative avec l'âge. En ce qui concerne les populations qui sont connues pour être associées à l'âge, un modèle de régression linéaire multiple a été considéré qui fournit un coefficient de régression renforcé. Ces résultats établissent une base efficace pour l'évaluation de notre procédure FlowGM.Lors de l'utilisation de FlowGM pour la caractérisation détaillée de certaines sous-populations présentant de fortes variations au travers des différents échantillons, par exemple les cellules T, nous avons constaté que FlowGM était en difficulté. En effet, dans ce cas, l'algorithme EM classique initialisé avec la classification de l'échantillon de référence est insuffisant pour garantir l'alignement et donc l'identification des différentes classes entre tous échantillons. Nous avons donc amélioré FlowGM en une nouvelle procédure FlowGMP. Pour ce faire, nous avens ajouté au modèle de mélange, une distribution a priori sur les paramètres de composantes, conduisant à un algorithme EM contraint. Enfin, l'évaluation de FlowGMP sur un panel difficile de cellules T a été réalisée, en effectuant une comparaison avec l'analyse manuelle. Cette comparaison montre que notre procédure Bayésienne fournit une identification fiable et efficace des onze sous-populations de cellules T à travers un grand nombre d'échantillons. / In the course of my Ph.D. work, I have developed and applied two new computational approaches for automatic identification of cell populations in multi-parameter flow cytometry across a large number of samples. Both approaches were motivated and taken by the LabEX "Milieu Intérieur" study (hereafter MI study). In this project, ten 8-color flow cytometry panels were standardized for assessment of the major and minor cell populations present in peripheral whole blood, and data were collected and analyzed from 1,000 cohorts of healthy donors.First, we aim at robust characterization of major cellular components of the immune system. We report a computational pipeline, called FlowGM, which minimizes operator input, is insensitive to compensation settings, and can be adapted to different analytic panels. A Gaussian Mixture Model (GMM) - based approach was utilized for initial clustering, with the number of clusters determined using Bayesian Information Criterion. Meta-clustering in a reference donor, by which we mean labeling clusters and merging those with the same label in a pre-selected representative donor, permitted automated identification of 24 cell populations across four panels. Cluster labels were then integrated into Flow Cytometry Standard (FCS) files, thus permitting comparisons to human expert manual analysis. We show that cell numbers and coefficient of variation (CV) are similar between FlowGM and conventional manual analysis of lymphocyte populations, but notably FlowGM provided improved discrimination of "hard-to-gate" monocyte and dendritic cell (DC) subsets. FlowGM thus provides rapid, high-dimensional analysis of cell phenotypes and is amenable to cohort studies.After having cell counts across a large number of cohort donors, some further analysis (for example, the agreement with other methods, the age and gender effect, etc.) are required naturally for the purpose of comprehensive evaluation, diagnosis and discovery. In the context of the MI project, the 1,000 healthy donors were stratified across gender (50% women and 50% men) and age (20-69 years of age). Analysis was streamlined using our established approach FlowGM, the results were highly concordant with the state-of-art gold standard manual gating. More important, further precision of the CD16+ monocytes and cDC1 population was achieved using FlowGM, CD14loCD16hi monocytes and HLADRhi cDC1 cells were consistently identified. We demonstrate that the counts of these two populations show a significant correlation with age. As for the cell populations that are well-known to be related to age, a multiple linear regression model was considered, and it is shown that our results provided higher regression coefficient. These findings establish a strong foundation for comprehensive evaluation of our previous work.When extending this FlowGM method for detailed characterization of certain subpopulations where more variations are revealed across a large number of samples, for example the T cells, we find that the conventional EM algorithm initiated with reference clustering is insufficient to guarantee the alignment of clusters between all samples due to the presence of technical and biological variations. We then improved FlowGM and presented FlowGMP pipeline to address this specific panel. We introduce a Bayesian mixture model by assuming a prior distribution of component parameters and derive a penalized EM algorithm. Finally the performance of FlowGMP on this difficult T cell panel with a comparison between automated and manual analysis shows that our method provides a reliable and efficient identification of eleven T cell subpopulations across a large number of samples. Cytometrie en flux Analyse de donnes multiparamétrique Clustering Cohort data Mélange de lois Flow cytometry High-Dimensional data analysis Clustering Cohort data Mixture model
4	Analyse et modélisation de données probabilistes par décomposition de mélange de copules et application à une base de données climatologiques Vrac, Mathieu 06 December 2002 (has links) (PDF) Nous étendons les méthodes de décomposition de mélange de densités de probabilité au cas des données "fonctions de répartition", permettant ainsi de classifier ces fonctions et de modéliser une loi pour ces données fonctionnelles particulières. Cette loi est donnée par la notion de "fonctions de distribution de distributions" (FDD), basée sur la définition d'une fonction de répartition pour des variables aléatoires à valeurs dans un espace probabiliste. Les extensions sont effectuées en associant les FDD aux fonctions "copules" par le théorème de Sklar. Les copules "couplent" les fonctions de répartition à n dimensions (jointes) et à 1-dimension (marginales) d'un n-uplet de variables aléatoires. Nous regardons principalement une classe de copules paramétriques, les copules Archimédiennes, et proposons trois nouvelles méthodes d'estimation des paramètres dans le cas de copules multivariées : par coefficients de corrélation de Kendall, de Spearman, et par maximisation de la vraisemblance. L'association des FDD et des copules caractérise l'évolution des données fonctionnelles (i.e. la forme de ces fonctions) entre différents points à l'intérieur des classes pour chaque variable, et donne une mesure de dépendance entre les variables utilisées. Les méthodes sont tout d'abord développées pour une variable, puis divers généralisations sont proposées pour n dimensions. Certains points théoriques sont ensuite discutés, tels que la convergence de l'algorithme et le fait que la méthode par copules est une généralisation du cas classique. Une application de la méthode "approche classification" par copules est réalisée sur des données climatiques de l'atmosphère terrestre. Le but est la classification de "profils" atmosphériques et l'estimation de la loi sous-jacente des données. Les résultats sont comparés avec ceux de méthodes "classiques", prouvant ainsi les performances nettement supérieures de la méthode par décomposition de mélange de copules (DMC) et l'intérêt de l'utilisation des données probabilistes. [MATH] Mathematics lois multivariées mélange de lois analyse de données symboliques copules données probabilistes données fonctionnelles données fonctions de répartition distribution de distributions climatologie
5	Reconnaissance automatique du locuteur par des GMM à grande marge Jourani, Reda 06 September 2012 (has links) (PDF) Depuis plusieurs dizaines d'années, la reconnaissance automatique du locuteur (RAL) fait l'objet de travaux de recherche entrepris par de nombreuses équipes dans le monde. La majorité des systèmes actuels sont basés sur l'utilisation des Modèles de Mélange de lois Gaussiennes (GMM) et/ou des modèles discriminants SVM, i.e., les machines à vecteurs de support. Nos travaux ont pour objectif général la proposition d'utiliser de nouveaux modèles GMM à grande marge pour la RAL qui soient une alternative aux modèles GMM génératifs classiques et à l'approche discriminante état de l'art GMM-SVM. Nous appelons ces modèles LM-dGMM pour Large Margin diagonal GMM. Nos modèles reposent sur une récente technique discriminante pour la séparation multi-classes, qui a été appliquée en reconnaissance de la parole. Exploitant les propriétés des systèmes GMM utilisés en RAL, nous présentons dans cette thèse des variantes d'algorithmes d'apprentissage discriminant des GMM minimisant une fonction de perte à grande marge. Des tests effectués sur les tâches de reconnaissance du locuteur de la campagne d'évaluation NIST-SRE 2006 démontrent l'intérêt de ces modèles en reconnaissance. Apprentissage discriminant Modèles de Mélange de lois Gaussiennes maximisation de la marge reconnaissance du locuteur
6	Étude des fonctions B-splines pour la fusion d'images segmentées par approche bayésienne / Study of B-spline function for fusion of segmented images by Bayesian approach Hadrich Ben Arab, Atizez 02 December 2015 (has links) Dans cette thèse nous avons traité le problème de l'estimation non paramétrique des lois de probabilités. Dans un premier temps, nous avons supposé que la densité inconnue f a été approchée par un mélange de base B-spline quadratique. Puis, nous avons proposé un nouvel estimateur de la densité inconnue f basé sur les fonctions B-splines quadratiques, avec deux méthodes d'estimation. La première est base sur la méthode du maximum de vraisemblance et la deuxième est basée sur la méthode d'estimation Bayésienne MAP. Ensuite, nous avons généralisé notre étude d'estimation dans le cadre du mélange et nous avons proposé un nouvel estimateur du mélange de lois inconnues basé sur les deux méthodes d'estimation adaptées. Dans un deuxième temps, nous avons traité le problème de la segmentation statistique semi supervisée des images en se basant sur le modèle de Markov caché et les fonctions B-splines. Nous avons montré l'apport de l'hybridation du modèle de Markov caché et les fonctions B-splines en segmentation statistique bayésienne semi supervisée des images. Dans un troisième temps, nous avons présenté une approche de fusion basée sur la méthode de maximum de vraisemblance, à travers l'estimation non paramétrique des probabilités, pour chaque pixel de l'image. Nous avons ensuite appliqué cette approche sur des images multi-spectrales et multi-temporelles segmentées par notre algorithme non paramétrique et non supervisé. / In this thesis we are treated the problem of nonparametric estimation probability distributions. At first, we assumed that the unknown density f was approximated by a basic mixture quadratic B-spline. Then, we proposed a new estimate of the unknown density function f based on quadratic B-splines, with two methods estimation. The first is based on the maximum likelihood method and the second is based on the Bayesian MAP estimation method. Then we have generalized our estimation study as part of the mixture and we have proposed a new estimator mixture of unknown distributions based on the adapted estimation of two methods. In a second time, we treated the problem of semi supervised statistical segmentation of images based on the hidden Markov model and the B-sline functions. We have shown the contribution of hybridization of the hidden Markov model and B-spline functions in unsupervised Bayesian statistical image segmentation. Thirdly, we presented a fusion approach based on the maximum likelihood method, through the nonparametric estimation of probabilities, for each pixel of the image. We then applied this approach to multi-spectral and multi-temporal images segmented by our nonparametric and unsupervised algorithm. Estimation non paramétrique Fonction B-spline Fusion Bayésienne Mélange des lois de probabilités Méthode Bayésienne Modèle de Markov caché Segmentation statistique Non parametric estimation B-spline function Bayesian fusion Mixing distribution of probability Bayesian method Hidden Markov model Statistical segmentation

1

Page generated in 0.0809 seconds