Global ETD Search

1	Recherche d'une représentation des données efficace pour la fouille des grandes bases de données Boullé, Marc 24 September 2007 (has links) (PDF) La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données. A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille. Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus. Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données. [MATH] Mathematics
2	Quantification of modelling uncertainties in turbulent flow simulations / Quantification des incertitudes de modélisation dans les écoulements turbulents Edeling, Wouter Nico 14 April 2015 (has links) Le but de cette thèse est de faire des simulations prédictives à partir de modèles de turbulence de type RANS (Reynolds-Averaged Navier-Stokes). Ces simulations font l'objet d'un traitement systématique du modèle, de son incertitude et de leur propagation par le biais d'un modèle de calcul prédictif aux incertitudes quantifiées. Pour faire cela, nous utilisons le cadre robuste de la statistique Bayesienne.La première étape vers ce but a été d'obtenir une estimation de l'erreur de simulations RANS basées sur le modèle de turbulence de Launder-Sharma k-e. Nous avons recherché en particulier à estimer des incertitudes pour les coefficients du modele, pour des écoulements de parois en gradients favorable et défavorable. Dans le but d'estimer la propagation des coefficients qui reproduisent le plus précisemment ces types d'écoulements, nous avons étudié 13 configurations différentes de calibrations Bayesienne. Chaque calibration était associée à un gradient de pression spécifique gràce à un modèle statistique. Nous representont la totalite des incertitudes dans la solution avec une boite-probabilite (p-box). Cette boîte-p représente aussi bien les paramètres de variabilité de l'écoulement que les incertitudes epistemiques de chaque calibration. L'estimation d'un nouvel écoulement de couche-limite est faite pour des valeurs d'incertitudes générées par cette information sur l'incertitude elle-même. L'erreur d'incertitude qui en résulte est consistante avec les mesures expérimentales.Cependant, malgré l'accord avec les mesures, l'erreur obtenue était encore trop large. Ceci est dû au fait que la boite-p est une prédiction non pondérée. Pour améliorer cela, nous avons développé une autre approche qui repose également sur la variabilité des coefficients de fermeture du modèle, au travers de multiples scénarios d'écoulements et de multiples modèles de fermeture. La variabilité est là encore estimée par le recours à la calibration Bayesienne et confrontée aux mesures expérimentales de chaque scénario. Cependant, un scénario-modèle Bayesien moyen (BMSA) est ici utilisé pour faire correspondre les distributions a posteriori à un scénario (prédictif) non mesuré. Contrairement aux boîtes-p, cette approche est une approche pondérée faisant appel aux probabilités des modèles de turbulence, déterminée par les données de calibration. Pour tous les scénarios de prédiction considérés, la déviation standard de l'estimation stochastique est consistante avec les mesures effectuées.Les résultats de l'approche BMSA expriment des barres d'erreur raisonnables. Cependant, afin de l'appliquer à des topologies plus complexes et au-delà de la classe des écoulements de couche-limite, des techniques de modeles de substitution doivent être mises en places. La méthode de la collocation Stochastique-Simplex (SSC) est une de ces techniques et est particulièrement robuste pour la propagation de distributions d'entrée incertaines dans un code de calcul. Néanmois, son utilisation de la triangulation Delaunay peut entrainer un problème de coût prohibitif pour les cas à plus de 5 dimensions. Nous avons donc étudié des moyens pour améliorer cette faible scalabilité. En premier lieu, c'est dans ce but que nous avons en premier proposé une technique alternative d'interpolation basée sur le probleme 'Set-Covering'. Deuxièmement, nous avons intégré la méthode SSC au cadre du modèle de réduction à haute dimension (HDMR) dans le but d'éviter de considérer tous les espaces de haute dimension en même temps.Finalement, avec l'utilisation de notre technique de modelisation de substitution (surrogate modelling technique), nous avons appliqué le cadre BMSA à un écoulement transsonique autour d'un profil d'aile. Avec cet outil nous sommes maintenant capable de faire des simulations prédictives d'écoulements auparavant trop coûteux et offrant des incertitudes quantifiées selon les imperfections des différents modèles de turbulence. / The goal of this thesis is to make predictive simulations with Reynolds-Averaged Navier-Stokes (RANS) turbulence models, i.e. simulations with a systematic treatment of model and data uncertainties and their propagation through a computational model to produce predictions of quantities of interest with quantified uncertainty. To do so, we make use of the robust Bayesian statistical framework.The first step toward our goal concerned obtaining estimates for the error in RANS simulations based on the Launder-Sharma k-e turbulence closure model, for a limited class of flows. In particular we searched for estimates grounded in uncertainties in the space of model closure coefficients, for wall-bounded flows at a variety of favourable and adverse pressure gradients. In order to estimate the spread of closure coefficients which reproduces these flows accurately, we performed 13 separate Bayesian calibrations. Each calibration was at a different pressure gradient, using measured boundary-layer velocity profiles, and a statistical model containing a multiplicative model inadequacy term in the solution space. The results are 13 joint posterior distributions over coefficients and hyper-parameters. To summarize this information we compute Highest Posterior-Density (HPD) intervals, and subsequently represent the total solution uncertainty with a probability box (p-box). This p-box represents both parameter variability across flows, and epistemic uncertainty within each calibration. A prediction of a new boundary-layer flow is made with uncertainty bars generated from this uncertainty information, and the resulting error estimate is shown to be consistent with measurement data.However, although consistent with the data, the obtained error estimates were very large. This is due to the fact that a p-box constitutes a unweighted prediction. To improve upon this, we developed another approach still based on variability in model closure coefficients across multiple flow scenarios, but also across multiple closure models. The variability is again estimated using Bayesian calibration against experimental data for each scenario, but now Bayesian Model-Scenario Averaging (BMSA) is used to collate the resulting posteriors in an unmeasured (prediction) scenario. Unlike the p-boxes, this is a weighted approach involving turbulence model probabilities which are determined from the calibration data. The methodology was applied to the class of turbulent boundary-layers subject to various pressure gradients. For all considered prediction scenarios the standard-deviation of the stochastic estimate is consistent with the measurement ground truth.The BMSA approach results in reasonable error bars, which can also be decomposed into separate contributions. However, to apply it to more complex topologies outside the class of boundary-layer flows, surrogate modelling techniques must be applied. The Simplex-Stochastic Collocation (SSC) method is a robust surrogate modelling technique used to propagate uncertain input distributions through a computer code. However, its use of the Delaunay triangulation can become prohibitively expensive for problems with dimensions higher than 5. We therefore investigated means to improve upon this bad scalability. In order to do so, we first proposed an alternative interpolation stencil technique based upon the Set-Covering problem, which resulted in a significant speed up when sampling the full-dimensional stochastic space. Secondly, we integrated the SSC method into the High-Dimensional Model-Reduction framework in order to avoid sampling high-dimensional spaces all together.Finally, with the use of our efficient surrogate modelling technique, we applied the BMSA framework to the transonic flow over an airfoil. With this we are able to make predictive simulations of computationally expensive flow problems with quantified uncertainty due to various imperfections in the turbulence models. Reynolds-Averaged Navier-Stokes Statistique Bayesienne Estimation de l'erreur Reynolds-Averaged Navier-Stokes Bayesian Statistics Error estimation
3	High dimensional Bayesian computation / Computation bayésienne en grande dimension Buchholz, Alexander 22 November 2018 (has links) La statistique bayésienne computationnelle construit des approximations de la distribution a posteriori soit par échantillonnage, soit en construisant des approximations tractables. La contribution de cette thèse au domaine des statistiques bayésiennes est le développement de nouvelle méthodologie en combinant des méthodes existantes. Nos approches sont mieux adaptées à la dimension ou entraînent une réduction du coût de calcul par rapport aux méthodes existantes.Notre première contribution améliore le calcul bayésien approximatif (ABC) en utilisant le quasi-Monte Carlo (QMC). ABC permet l'inférence bayésienne dans les modèles avec une vraisemblance intractable. QMC est une technique de réduction de variance qui fournit des estimateurs plus précis d’intégrales. Notre deuxième contribution utilise le QMC pour l'inférence variationnelle(VI). VI est une méthode pour construire des approximations tractable à la distribution a posteriori . La troisième contribution développe une approche pour adapter les échantillonneurs Monte Carlo séquentiel (SMC) lorsque on utilise des noyaux de mutation Hamiltonian MonteCarlo (HMC). Les échantillonneurs SMC permettent une estimation non biaisée de l’évidence du modèle, mais ils ont tendance à perdre en performance lorsque la dimension croit. HMC est une technique de Monte Carlo par chaîne de Markov qui présente des propriétés intéressantes lorsque la dimension de l'espace cible augmente mais elle est difficile à adapter. En combinant les deux,nous construisons un échantillonneur qui tire avantage des deux. / Computational Bayesian statistics builds approximations to the posterior distribution either bysampling or by constructing tractable approximations. The contribution of this thesis to the fieldof Bayesian statistics is the development of new methodology by combining existing methods. Ourapproaches either scale better with the dimension or result in reduced computational cost com-pared to existing methods. Our first contribution improves approximate Bayesian computation(ABC) by using quasi-Monte Carlo (QMC). ABC allows Bayesian inference in models with in-tractable likelihoods. QMC is a variance reduction technique that yields precise estimations ofintegrals. Our second contribution takes advantage of QMC for Variational Inference (VI). VIis a method for constructing tractable approximations to the posterior distribution. The thirdcontribution develops an approach for tuning Sequential Monte Carlo (SMC) samplers whenusing Hamiltonian Monte Carlo (HMC) mutation kernels. SMC samplers allow the unbiasedestimation of the model evidence but tend to struggle with increasing dimension. HMC is aMarkov chain Monte Carlo technique that has appealing properties when the dimension of thetarget space increases but is difficult to tune. By combining the two we construct a sampler thattakes advantage of the two. Monte Carlo sequentiel Statistique bayesienne Quasi Monte Carlo Sequential Monte Carlo Bayesian statistics Quasi Monte Carlo 519
4	Statistical potentials for evolutionary studies Kleinman, Claudia L. 06 1900 (has links) Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique. / Protein sequences are the net result of the interplay of mutation, natural selection and stochastic variation. Probabilistic models of molecular evolution accounting for these processes have been substantially improved over the last years. In particular, models that explicitly incorporate protein structure and site interdependencies have recently been developed, as well as statistical tools for assessing their performance. Despite major advances in this direction, only simple representations of protein structure have been used so far. In this context, the main theme of this dissertation has been the modeling of three-dimensional protein structure for evolutionary studies, taking into account the limitations imposed by computationally demanding phylogenetic methods. First, a general statistical framework for optimizing the parameters of a statistical potential (an energy-like scoring system for sequence-structure compatibility) is presented. The functional form of the potential is then refined, increasing the detail of structural description without inflating computational costs. Always at the residue-level, several structural elements are investigated: pairwise distance interactions, solvent accessibility, backbone conformation and flexibility of the residues. The potentials are then included into an evolutionary model and their performance is assessed in terms of model fit, compared to standard evolutionary models. Finally, this new structurally constrained phylogenetic model is used to better understand the selective forces behind the differences in conservation found in genes of very different expression levels. Évolution moléculaire structure des protéines Markov chain Monte Carlo maximum de vraisemblance statistique Bayesienne potentiels statistiques molecular evolution protein structure Markov chain Monte Carlo maximum likelihood Bayesian statistics statistical potentials
5	Statistical potentials for evolutionary studies Kleinman, Claudia L. 06 1900 (has links) Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique. / Protein sequences are the net result of the interplay of mutation, natural selection and stochastic variation. Probabilistic models of molecular evolution accounting for these processes have been substantially improved over the last years. In particular, models that explicitly incorporate protein structure and site interdependencies have recently been developed, as well as statistical tools for assessing their performance. Despite major advances in this direction, only simple representations of protein structure have been used so far. In this context, the main theme of this dissertation has been the modeling of three-dimensional protein structure for evolutionary studies, taking into account the limitations imposed by computationally demanding phylogenetic methods. First, a general statistical framework for optimizing the parameters of a statistical potential (an energy-like scoring system for sequence-structure compatibility) is presented. The functional form of the potential is then refined, increasing the detail of structural description without inflating computational costs. Always at the residue-level, several structural elements are investigated: pairwise distance interactions, solvent accessibility, backbone conformation and flexibility of the residues. The potentials are then included into an evolutionary model and their performance is assessed in terms of model fit, compared to standard evolutionary models. Finally, this new structurally constrained phylogenetic model is used to better understand the selective forces behind the differences in conservation found in genes of very different expression levels. Évolution moléculaire structure des protéines Markov chain Monte Carlo maximum de vraisemblance statistique Bayesienne potentiels statistiques molecular evolution protein structure Markov chain Monte Carlo maximum likelihood Bayesian statistics statistical potentials

1

Page generated in 0.2407 seconds