• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 45
  • 43
  • 4
  • Tagged with
  • 88
  • 88
  • 47
  • 24
  • 23
  • 20
  • 18
  • 18
  • 18
  • 15
  • 15
  • 14
  • 14
  • 13
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Inférence statistique en grande dimension pour des modèles structurels. Modèles linéaires généralisés parcimonieux, méthode PLS et polynômes orthogonaux et détection de communautés dans des graphes. / Statistical inference for structural models in high dimension. Sparse generalized linear models, PLS through orthogonal polynomials and community detection in graphs

Blazere, Melanie 01 July 2015 (has links)
Cette thèse s'inscrit dans le cadre de l'analyse statistique de données en grande dimension. Nous avons en effet aujourd'hui accès à un nombre toujours plus important d'information. L'enjeu majeur repose alors sur notre capacité à explorer de vastes quantités de données et à en inférer notamment les structures de dépendance. L'objet de cette thèse est d'étudier et d'apporter des garanties théoriques à certaines méthodes d'estimation de structures de dépendance de données en grande dimension.La première partie de la thèse est consacrée à l'étude de modèles parcimonieux et aux méthodes de type Lasso. Après avoir présenté les résultats importants sur ce sujet dans le chapitre 1, nous généralisons le cas gaussien à des modèles exponentiels généraux. La contribution majeure à cette partie est présentée dans le chapitre 2 et consiste en l'établissement d'inégalités oracles pour une procédure Group Lasso appliquée aux modèles linéaires généralisés. Ces résultats montrent les bonnes performances de cet estimateur sous certaines conditions sur le modèle et sont illustrés dans le cas du modèle Poissonien. Dans la deuxième partie de la thèse, nous revenons au modèle de régression linéaire, toujours en grande dimension mais l'hypothèse de parcimonie est cette fois remplacée par l'existence d'une structure de faible dimension sous-jacente aux données. Nous nous penchons dans cette partie plus particulièrement sur la méthode PLS qui cherche à trouver une décomposition optimale des prédicteurs étant donné un vecteur réponse. Nous rappelons les fondements de la méthode dans le chapitre 3. La contribution majeure à cette partie consiste en l'établissement pour la PLS d'une expression analytique explicite de la structure de dépendance liant les prédicteurs à la réponse. Les deux chapitres suivants illustrent la puissance de cette formule aux travers de nouveaux résultats théoriques sur la PLS . Dans une troisième et dernière partie, nous nous intéressons à la modélisation de structures au travers de graphes et plus particulièrement à la détection de communautés. Après avoir dressé un état de l'art du sujet, nous portons notre attention sur une méthode en particulier connue sous le nom de spectral clustering et qui permet de partitionner les noeuds d'un graphe en se basant sur une matrice de similarité. Nous proposons dans cette thèse une adaptation de cette méthode basée sur l'utilisation d'une pénalité de type l1. Nous illustrons notre méthode sur des simulations. / This thesis falls within the context of high-dimensional data analysis. Nowadays we have access to an increasing amount of information. The major challenge relies on our ability to explore a huge amount of data and to infer their dependency structures.The purpose of this thesis is to study and provide theoretical guarantees to some specific methods that aim at estimating dependency structures for high-dimensional data. The first part of the thesis is devoted to the study of sparse models through Lasso-type methods. In Chapter 1, we present the main results on this topic and then we generalize the Gaussian case to any distribution from the exponential family. The major contribution to this field is presented in Chapter 2 and consists in oracle inequalities for a Group Lasso procedure applied to generalized linear models. These results show that this estimator achieves good performances under some specific conditions on the model. We illustrate this part by considering the case of the Poisson model. The second part concerns linear regression in high dimension but the sparsity assumptions is replaced by a low dimensional structure underlying the data. We focus in particular on the PLS method that attempts to find an optimal decomposition of the predictors given a response. We recall the main idea in Chapter 3. The major contribution to this part consists in a new explicit analytical expression of the dependency structure that links the predictors to the response. The next two chapters illustrate the power of this formula by emphasising new theoretical results for PLS. The third and last part is dedicated to graphs modelling and especially to community detection. After presenting the main trends on this topic, we draw our attention to Spectral Clustering that allows to cluster nodes of a graph with respect to a similarity matrix. In this thesis, we suggest an alternative to this method by considering a $l_1$ penalty. We illustrate this method through simulations.
72

Multivariate analysis of high-throughput sequencing data / Analyses multivariées de données de séquençage à haut débit

Durif, Ghislain 13 December 2016 (has links)
L'analyse statistique de données de séquençage à haut débit (NGS) pose des questions computationnelles concernant la modélisation et l'inférence, en particulier à cause de la grande dimension des données. Le travail de recherche dans ce manuscrit porte sur des méthodes de réductions de dimension hybrides, basées sur des approches de compression (représentation dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant la régression "Partial Least Squares" parcimonieuse (supervisée) et les méthodes de factorisation parcimonieuse de matrices (non supervisée). Dans les deux cas, notre objectif sera la reconstruction et la visualisation des données. Nous présenterons une nouvelle approche de type PLS parcimonieuse, basée sur une pénalité adaptative, pour la régression logistique. Cette approche sera utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire) à partir de l'expression des gènes. La principale problématique sera de prendre en compte la réponse pour écarter les variables non pertinentes. Nous mettrons en avant le lien entre la construction des algorithmes et la fiabilité des résultats.Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous proposons une approche probabiliste pour la factorisation de matrices de comptage, laquelle prend en compte la sur-dispersion et l'amplification des zéros (caractéristiques des données single-cell). Nous développerons une procédure d'estimation basée sur l'inférence variationnelle. Nous introduirons également une procédure de sélection de variables probabiliste basée sur un modèle "spike-and-slab". L'intérêt de notre méthode pour la reconstruction, la visualisation et le clustering de données sera illustré par des simulations et par des résultats préliminaires concernant une analyse de données "single-cell". Toutes les méthodes proposées sont implémentées dans deux packages R: plsgenomics et CMF / The statistical analysis of Next-Generation Sequencing data raises many computational challenges regarding modeling and inference, especially because of the high dimensionality of genomic data. The research work in this manuscript concerns hybrid dimension reduction methods that rely on both compression (representation of the data into a lower dimensional space) and variable selection. Developments are made concerning: the sparse Partial Least Squares (PLS) regression framework for supervised classification, and the sparse matrix factorization framework for unsupervised exploration. In both situations, our main purpose will be to focus on the reconstruction and visualization of the data. First, we will present a new sparse PLS approach, based on an adaptive sparsity-inducing penalty, that is suitable for logistic regression to predict the label of a discrete outcome. For instance, such a method will be used for prediction (fate of patients or specific type of unidentified single cells) based on gene expression profiles. The main issue in such framework is to account for the response to discard irrelevant variables. We will highlight the direct link between the derivation of the algorithms and the reliability of the results. Then, motivated by questions regarding single-cell data analysis, we propose a flexible model-based approach for the factorization of count matrices, that accounts for over-dispersion as well as zero-inflation (both characteristic of single-cell data), for which we derive an estimation procedure based on variational inference. In this scheme, we consider probabilistic variable selection based on a spike-and-slab model suitable for count data. The interest of our procedure for data reconstruction, visualization and clustering will be illustrated by simulation experiments and by preliminary results on single-cell data analysis. All proposed methods were implemented into two R-packages "plsgenomics" and "CMF" based on high performance computing
73

Approximation de modèles dynamiques de grande dimension sur intervalles de fréquences limités / Frequency-limited model approximation of large-scale dynamical models

Vuillemin, Pierre 24 November 2014 (has links)
Les systèmes physiques sont représentés par des modèles mathématiques qui peuvent être utilisés pour simuler, analyser ou contrôler ces systèmes. Selon la complexité du système qu’il est censé représenter, un modèle peut être plus ou moins complexe. Une complexité trop grande peut s’avérer problématique en pratique du fait des limitations de puissance de calcul et de mémoire des ordinateurs. L’une des façons de contourner ce problème consiste à utiliser l’approximation de modèles qui vise à remplacer le modèle complexe par un modèle simplifié dont le comportement est toujours représentatif de celui du système physique.Dans le cas des modèles dynamiques Linéaires et Invariants dans le Temps (LTI), la complexité se traduit par une dimension importante du vecteur d’état et on parle alors de modèles de grande dimension. L’approximation de modèle, encore appelée réduction de modèle dans ce cas, a pour but de trouver un modèle dont le vecteur d’état est plus petit que celui du modèle de grande dimension tel que les comportements entrée-sortie des deux modèles soient proches selon une certaine norme. La norme H2 a été largement considérée dans la littérature pour mesurer la qualité d’un modèle réduit. Cependant, la bande passante limitée des capteurs et des actionneurs ainsi que le fait qu’un modèle est généralement représentatif d’un système physique dans une certaine bande fréquentielle seulement, laissent penser qu’un modèle réduit dont le comportement est fidèle au modèle de grande dimension dans un intervalle de fréquences donné,peut être plus pertinent. C’est pourquoi, dans cette étude, la norme H2 limitée en fréquence,ou norme H2, Ω, qui est simplement la restriction de la norme H2 sur un intervalle de fréquences Ω, a été considérée. En particulier, le problème qui vise à trouver un modèle réduit minimisant la norme H2, Ω de l’erreur d’approximation avec le modèle de grande dimension a été traité.Deux approches ont été proposées dans cette optique. La première est une approche empirique basée sur la modification d’une méthode sous-optimale pour l’approximation H2. En pratique, ses performances s’avèrent intéressantes et rivalisent avec certaines méthodes connues pour l’approximation de modèles sur intervalles de fréquences limités.La seconde est une méthode d’optimisation basée sur la formulation pôles-résidus de la norme H2, Ω. Cette formulation généralise naturellement celle existante pour la norme H2 et permet également d’exprimer deux bornes supérieures sur la norme H∞ d’un modèle LTI, ce qui est particulièrement intéressant dans le cadre de la réduction de modèle. Les conditions d’optimalité du premier ordre pour le problème d’approximation optimale en norme H2, Ω ont été exprimées et utilisées pour créer un algorithme de descente visant à trouver un minimum local au problème d’approximation. Couplée aux bornes sur la norme H∞ de l’erreur d’approximation,cette méthode est utilisée pour le contrôle de modèle de grande dimension.D’un point de vue plus pratique, l’ensemble des méthodes proposées dans cette étude ont été appliquées, avec succès, dans un cadre industriel comme élément d’un processus global visant à contrôler un avion civil flexible. / Physical systems are represented by mathematical models in order to be simulated, analysed or controlled. Depending on the complexity of the physical system it is meant to represent and on the way it has been built, a model can be more or less complex. This complexity can become an issue in practice due to the limited computational power and memory of computers. One way to alleviate this issue consists in using model approximation which is aimed at finding a simpler model that still represents faithfully the physical system.In the case of Linear Time Invariant (LTI) dynamical models, complexity translates into a large dimension of the state vector and one talks about large-scale models. Model approximation is in this case also called model reduction and consists in finding a model with a smaller state vector such that the input-to-output behaviours of both models are close with respect to some measure. The H2-norm has been extensively used in the literature to evaluate the quality of a reduced-order model. Yet, due to the limited band width of actuators, sensors and the fact that models are generally representative on a bounded frequency interval only, a reduced-order model that faithfully reproduces the behaviour of the large-scale one over a bounded frequency interval only, may be morerelevant. That is why, in this study, the frequency-limited H2-norm, or H2,Ω-norm, which is the restriction of theH2-norm over a frequency interval, has been considered. In particular, the problem of finding a reduced-ordermodel that minimises the H2, Ω-norm of the approximation error with the large-scale model has been addressed here. For that purpose, two approaches have been developed. The first one is an empirical approach based on the modification of a sub-optimal H2 model approximation method. Its performances are interesting in practice and compete with some well-known frequency-limited approximation methods. The second one is an optimisationmethod relying on the poles-residues formulation of the H2,Ω-norm. This formulation naturally extends the oneexisting for the H2-norm and can also be used to derive two upper bounds on the H∞-norm of LTI dynamical models which is of particular interest in model reduction. The first-order optimality conditions of the optimal H2,Ω approximation problem are derived and used to built a complex-domain descent algorithm aimed at finding a local minimum of the problem. Together with the H∞ bounds on the approximation error, this approach isused to perform control of large-scale models. From a practical point of view, the methods proposed in this study have been successfully applied in an industrial context as a part of the global process aimed at controlling a flexible civilian aircraft.
74

Exponential weighted aggregation : oracle inequalities and algorithms / Agrégation à poids exponentiels : inégalités oracles et algorithmes

Luu, Duy tung 23 November 2017 (has links)
Dans plusieurs domaines des statistiques, y compris le traitement du signal et des images, l'estimation en grande dimension est une tâche importante pour recouvrer un objet d'intérêt. Toutefois, dans la grande majorité de situations, ce problème est mal-posé. Cependant, bien que la dimension ambiante de l'objet à restaurer (signal, image, vidéo) est très grande, sa ``complexité'' intrinsèque est généralement petite. La prise en compte de cette information a priori peut se faire au travers de deux approches: (i) la pénalisation (très populaire) et (ii) l'agrégation à poids exponentiels (EWA). L'approche penalisée vise à chercher un estimateur qui minimise une attache aux données pénalisée par un terme promouvant des objets de faible complexité (simples). L'EWA combine une famille des pré-estimateurs, chacun associé à un poids favorisant exponentiellement des pré-estimateurs, lesquels privilègent les mêmes objets de faible complexité.Ce manuscrit se divise en deux grandes parties: une partie théorique et une partie algorithmique. Dans la partie théorique, on propose l'EWA avec une nouvelle famille d'a priori favorisant les signaux parcimonieux à l'analyse par group dont la performance est garantie par des inégalités oracle. Ensuite, on analysera l'estimateur pénalisé et EWA, avec des a prioris généraux favorisant des objets simples, dans un cardre unifié pour établir des garanties théoriques. Deux types de garanties seront montrés: (i) inégalités oracle en prédiction, et (ii) bornes en estimation. On les déclinera ensuite pour des cas particuliers dont certains ont été étudiés dans littérature. Quant à la partie algorithmique, on y proposera une implémentation de ces estimateurs en alliant simulation Monte-Carlo (processus de diffusion de Langevin) et algorithmes d'éclatement proximaux, et montrera leurs garanties de convergence. Plusieurs expériences numériques seront décrites pour illustrer nos garanties théoriques et nos algorithmes. / In many areas of statistics, including signal and image processing, high-dimensional estimation is an important task to recover an object of interest. However, in the overwhelming majority of cases, the recovery problem is ill-posed. Fortunately, even if the ambient dimension of the object to be restored (signal, image, video) is very large, its intrinsic ``complexity'' is generally small. The introduction of this prior information can be done through two approaches: (i) penalization (very popular) and (ii) aggregation by exponential weighting (EWA). The penalized approach aims at finding an estimator that minimizes a data loss function penalized by a term promoting objects of low (simple) complexity. The EWA combines a family of pre-estimators, each associated with a weight exponentially promoting the same objects of low complexity.This manuscript consists of two parts: a theoretical part and an algorithmic part. In the theoretical part, we first propose the EWA with a new family of priors promoting analysis-group sparse signals whose performance is guaranteed by oracle inequalities. Next, we will analysis the penalized estimator and EWA, with a general prior promoting simple objects, in a unified framework for establishing some theoretical guarantees. Two types of guarantees will be established: (i) prediction oracle inequalities, and (ii) estimation bounds. We will exemplify them for particular cases some of which studied in the literature. In the algorithmic part, we will propose an implementation of these estimators by combining Monte-Carlo simulation (Langevin diffusion process) and proximal splitting algorithms, and show their guarantees of convergence. Several numerical experiments will be considered for illustrating our theoretical guarantees and our algorithms.
75

Inférence de réseaux de régulation orientés pour les facteurs de transcription d'Arabidopsis thaliana et création de groupes de co-régulation / Inference of directed regulatory networks on the transcription factors of Arabidopsis thaliana and setting up of co-regulation groups

Vasseur, Yann 08 December 2017 (has links)
Dans cette thèse, nous cherchons à caractériser les facteurs de transcription de la plante Arabidopsis thaliana, gènes importants pour la régulation de l'expression du génome. À l'aide de données d'expression, notre objectif biologique est de classer ces facteurs de transcription en groupes de gènes co-régulateurs et en groupes de gènes co-régulés. Nous procédons en deux phases pour y parvenir. La première phase consiste à construire un réseau de régulation entre les facteurs de transcription. La seconde phase consiste en la classification des facteurs de transcription selon les liens de régulation établis par ce réseau. D'un point de vue statistique, les facteurs de transcription sont les variables et les données d'expression sont les observations. Nous représentons le réseau à inférer par un graphe orienté dont les nœuds sont les variables. L'estimation de ses arêtes est vue comme un problème de sélection de variables en grande dimension avec un faible nombre d'unités statistiques. Nous traitons ce problème à l'aide de régressions linéaires pénalisées de type LASSO. Une approche préliminaire qui consiste à sélectionner un ensemble de variables du chemin de régularisation par le biais de critères de vraisemblance pénalisée s'avère être instable et fournit trop de variables explicatives. Pour contrecarrer cela, nous proposons et mettons en compétition deux procédures de sélection, adaptées au problème de la haute dimension et mêlant régression linéaire pénalisée et rééchantillonnage. L'estimation des différents paramètres de ces procédures a été effectuée dans le but d'obtenir des ensembles de variables stables. Nous évaluons la stabilité des résultats à l'aide de jeux de données simulés selon notre modèle graphique. Nous faisons appel ensuite à une méthode de classification non supervisée sur chacun des graphes orientés obtenus pour former des groupes de nœuds vus comme contrôleurs et des groupes de nœuds vus comme contrôlés. Pour évaluer la proximité entre les classifications doubles des nœuds obtenus sur différents graphes, nous avons développé un indice de comparaison de couples de partition dont nous éprouvons et promouvons la pertinence. D'un point de vue pratique, nous proposons une méthode de simulation en cascade, exigée par la complexité de notre modèle et inspirée du bootstrap paramétrique, pour simuler des jeux de données en accord avec notre modèle. Nous avons validé notre modèle en évaluant la proximité des classifications obtenues par application de la procédure statistique sur les données réelles et sur ces données simulées. / This thesis deals with the characterisation of key genes in gene expression regulation, called transcription factors, in the plant Arabidopsis thaliana. Using expression data, our biological goal is to cluster transcription factors in groups of co-regulator transcription factors, and in groups of co-regulated transcription factors. To do so, we propose a two-step procedure. First, we infer the network of regulation between transcription factors. Second, we cluster transcription factors based on their connexion patterns to other transcriptions factors.From a statistical point of view, the transcription factors are the variables and the samples are the observations. The regulatory network between the transcription factors is modelled using a directed graph, where variables are nodes. The estimation of the nodes can be interpreted as a problem of variables selection. To infer the network, we perform LASSO type penalised linear regression. A preliminary approach selects a set of variable along the regularisation path using penalised likelihood criterion. However, this approach is unstable and leads to select too many variables. To overcome this difficulty, we propose to put in competition two selection procedures, designed to deal with high dimension data and mixing linear penalised regression and subsampling. Parameters estimation of the two procedures are designed to lead to select stable set of variables. Stability of results is evaluated on simulated data under a graphical model. Subsequently, we use an unsupervised clustering method on each inferred oriented graph to detect groups of co-regulators and groups of co-regulated. To evaluate the proximity between the two classifications, we have developed an index of comparaison of pairs of partitions whose relevance is tested and promoted. From a practical point of view, we propose a cascade simulation method required to respect the model complexity and inspired from parametric bootstrap, to simulate data under our model. We have validated our model by inspecting the proximity between the two classifications on simulated and real data.
76

Essais en économetrie et économie de l'éducation

Tchuente Nguembu, Guy 07 1900 (has links)
No description available.
77

Maximum de vraisemblance empirique pour la détection de changements dans un modèle avec un nombre faible ou très grand de variables / Maximum empirical likelihood for detecting the changes in a model with a low or very large number of variables

Salloum, Zahraa 19 January 2016 (has links)
Cette thèse est consacrée à tester la présence de changements dans les paramètres d'un modèle de régression non-linéaire ainsi que dans un modèle de régression linéaire en très grande dimension. Tout d'abord, nous proposons une méthode basée sur la vraisemblance empirique pour tester la présence de changements dans les paramètres d'un modèle de régression non-linéaire. Sous l'hypothèse nulle, nous prouvons la consistance et la vitesse de convergence des estimateurs des paramètres de régression. La loi asymptotique de la statistique de test sous l'hypothèse nulle nous permet de trouver la valeur critique asymptotique. D'autre part, nous prouvons que la puissance asymptotique de la statistique de test proposée est égale à 1. Le modèle épidémique avec deux points de rupture est également étudié. Ensuite, on s'intéresse à construire les régions de confiance asymptotiques pour la différence entre les paramètres de deux phases d'un modèle non-linéaire avec des regresseurs aléatoires en utilisant la méthode de vraisemblance empirique. On montre que le rapport de la vraisemblance empirique a une distribution asymptotique χ2. La méthode de vraisemblance empirique est également utilisée pour construire les régions de confiance pour la différence entre les paramètres des deux phases d'un modèle non-linéaire avec des variables de réponse manquantes au hasard (Missing At Random (MAR)). Afin de construire les régions de confiance du paramètre en question, on propose trois statistiques de vraisemblance empirique : la vraisemblance empirique basée sur les données cas-complète, la vraisemblance empirique pondérée et la vraisemblance empirique par des valeurs imputées. On prouve que les trois rapports de vraisemblance empirique ont une distribution asymptotique χ2. Un autre but de cette thèse est de tester la présence d'un changement dans les coefficients d'un modèle linéaire en grande dimension, où le nombre des variables du modèle peut augmenter avec la taille de l'échantillon. Ce qui conduit à tester l'hypothèse nulle de non-changement contre l'hypothèse alternative d'un seul changement dans les coefficients de régression. Basée sur les comportements asymptotiques de la statistique de rapport de vraisemblance empirique, on propose une simple statistique de test qui sera utilisée facilement dans la pratique. La normalité asymptotique de la statistique de test proposée sous l'hypothèse nulle est prouvée. Sous l'hypothèse alternative, la statistique de test diverge / In this PHD thesis, we propose a nonparametric method based on the empirical likelihood for detecting the change in the parameters of nonlinear regression models and the change in the coefficient of linear regression models, when the number of model variables may increase as the sample size increases. Firstly, we test the null hypothesis of no-change against the alternative of one change in the regression parameters. Under null hypothesis, the consistency and the convergence rate of the regression parameter estimators are proved. The asymptotic distribution of the test statistic under the null hypothesis is obtained, which allows to find the asymptotic critical value. On the other hand, we prove that the proposed test statistic has the asymptotic power equal to 1. The epidemic model, a particular case of model with two change-points, under the alternative hypothesis, is also studied. Afterwards, we use the empirical likelihood method for constructing the confidence regions for the difference between the parameters of a two-phases nonlinear model with random design. We show that the empirical likelihood ratio has an asymptotic χ2 distribu- tion. Empirical likelihood method is also used to construct the confidence regions for the difference between the parameters of a two-phases nonlinear model with response variables missing at randoms (MAR). In order to construct the confidence regions of the parameter in question, we propose three empirical likelihood statistics : empirical likelihood based on complete-case data, weighted empirical likelihood and empirical likelihood with imputed va- lues. We prove that all three empirical likelihood ratios have asymptotically χ2 distributions. An another aim for this thesis is to test the change in the coefficient of linear regres- sion models for high-dimensional model. This amounts to testing the null hypothesis of no change against the alternative of one change in the regression coefficients. Based on the theoretical asymptotic behaviour of the empirical likelihood ratio statistic, we propose, for a deterministic design, a simpler test statistic, easier to use in practice. The asymptotic normality of the proposed test statistic under the null hypothesis is proved, a result which is different from the χ2 law for a model with a fixed variable number. Under alternative hypothesis, the test statistic diverges
78

Fast high-dimensional posterior inference with deep generative models : application to CMB delensing

Sotoudeh, Mohammad-Hadi 08 1900 (has links)
Nous vivons à une époque marquée par une abondance de données cosmologiques de haute résolution. Cet afflux de données engendré par les missions d'observation de nouvelle génération au sol et dans l'espace porte le potentiel de remodeler fondamentalement notre compréhension de l'univers et de ses principes physiques sous-jacents. Cependant, la complexité grande des données observées pose des défis aux approches conventionnelles d'analyse de données, soit en raison de coûts de calcul irréalisables, soit en raison des hypothèses simplificatrices utilisées dans ces algorithmes qui deviennent inadéquates dans des contextes haute résolution à faible bruit, conduisant à des résultats sous-optimaux. En réponse, la communauté scientifique s'est tournée vers des méthodes innovantes d'analyse de données, notamment les techniques d'apprentissage automatique (ML). Les modèles de ML, lorsqu'ils sont bien entraînés, peuvent identifier de manière autonome des correlations significatives dans les données de manière plus efficace et sans hypothèses restrictives inutiles. Bien que les méthodes de ML aient montré des promesses en astrophysique, elles présentent également des problèmes tels que le manque d'interprétabilité, les biais cachés et les estimations d'incertitude non calibrées, ce qui, jusqu'a maintenant, a entrave leur application dans d'importantes découvertes scientifiques. Ce projet s'inscrit dans le cadre de la collaboration "Learning the Universe" (LtU), axée sur la reconstruction des conditions initiales de l'univers, en utilisant une approche de modélisation bayésienne et en exploitant la puissance du ML. L'objectif de ce projet est de développer un cadre pour mener une inférence bayésienne au niveau des pixels dans des problèmes multidimensionnels. Dans cette thèse, je présente le développement d'un cadre d'apprentissage profond pour un échantillonnage rapide des postérieurs en dimensions élevées. Ce cadre utilise l'architecture "Hierarchical Probabilistic U-Net", qui combine la puissance de l'architecture U-Net dans l'apprentissage de cartes multidimensionnelles avec le rigoureux cadre d'inférence des autoencodeurs variationnels conditionnels. Notre modèle peut quantifier les incertitudes dans ses données d'entraînement et générer des échantillons à partir de la distribution a posteriori des paramètres, pouvant être utilisés pour dériver des estimations d'incertitude pour les paramètres inférés. L'efficacité de notre cadre est démontrée en l'appliquant au problème de la reconstruction de cartes du fond diffus cosmologique (CMB) pour en retirer de l'effet de lentille gravitationnelle faible. Notre travail constitue un atout essentiel pour effectuer une inférence de vraisemblance implicite en dimensions élevées dans les domaines astrophysiques. Il permet d'exploiter pleinement le potentiel des missions d'observation de nouvelle génération pour améliorer notre compréhension de l'univers et de ses lois physiques fondamentales. / We live in an era marked by an abundance of high-resolution cosmological data. This influx of data brought about by next-generation observational missions on the ground and in space, bears the potential of fundamentally reshaping our understanding of the universe and its underlying physical principles. However, the elevated complexity of the observed data poses challenges to conventional data analysis approaches, either due to infeasible computational costs or the simplifying assumptions used in these algorithms that become inadequate in high-resolution, low-noise contexts, leading to suboptimal results. In response, the scientific community has turned to innovative data analysis methods, including machine learning (ML) techniques. ML models, when well-trained, can autonomously identify meaningful patterns in data more efficiently and without unnecessary restrictive assumptions. Although ML methods have shown promise in astrophysics, they also exhibit issues like lack of interpretability, hidden biases, and uncalibrated uncertainty estimates, which have hindered their application in significant scientific discoveries. This project is defined within the context of the Learning the Universe (LtU) collaboration, focused on reconstructing the initial conditions of the universe, utilizing a Bayesian forward modeling approach and harnessing the power of ML. The goal of this project is to develop a framework for conducting Bayesian inference at the pixel level in high-dimensional problems. In this thesis, I present the development of a deep learning framework for fast high-dimensional posterior sampling. This framework utilizes the Hierarchical Probabilistic U-Net architecture, which combines the power of the U-Net architecture in learning high-dimensional mappings with the rigorous inference framework of Conditional Variational Autoencoders. Our model can quantify uncertainties in its training data and generate samples from the posterior distribution of parameters, which can be used to derive uncertainty estimates for the inferred parameters. The effectiveness of our framework is demonstrated by applying it to the problem of removing the weak gravitational lensing effect from the CMB. Our work stands as an essential asset to performing high-dimensional implicit likelihood inference in astrophysical domains. It enables utilizing the full potential of next-generation observational missions to improve our understanding of the universe and its fundamental physical laws.
79

Analyse hiérarchisée de la robustesse des systèmes incertains de grande dimension / Hierarchical robustness analysis of uncertain large scale systems

Laib, Khaled 18 July 2017 (has links)
Ces travaux de thèse concernent l'analyse de la robustesse (stabilité et performance) de systèmes linéaires incertains de grande dimension avec une structure hiérarchique. Ces systèmes sont obtenus en interconnectant plusieurs sous-systèmes incertains à travers une topologie hiérarchique. L'analyse de la robustesse de ces systèmes est un problème à deux aspects : la robustesse et la grande dimension. La résolution efficace de ce problème en utilisant les approches usuelles est difficile, voire impossible, à cause de la complexité et de la grande taille du problème d'optimisation associé. La conséquence de cette complexité est une augmentation importante du temps de calcul nécessaire pour résoudre ce problème d'optimisation. Afin de réduire ce temps de calcul, les travaux existants ne considèrent que des classes particulières de systèmes linéaires incertains de grande dimension. De plus, la structure hiérarchique de ces systèmes n'est pas prise en compte, ce qui montre, de notre point de vue, les limitations de ces résultats. Notre objectif est d'exploiter la structure hiérarchique de ces systèmes afin de ramener la résolution du problème d'analyse de grande taille à la résolution d'un ensemble de problèmes d'analyse de faible taille, ce qui aura comme conséquence une diminution du temps de calcul. De plus, un autre avantage de cette approche est la possibilité de résoudre ces problèmes en même temps en utilisant le calcul parallèle. Afin de prendre en compte la structure hiérarchique du système incertain de grande dimension, nous modélisons ce dernier comme l'interconnexion de plusieurs sous-systèmes incertains qui sont eux-mêmes l'interconnexion d'autres sous-systèmes incertains, etc.. Cette technique récursive de modélisation est faite sur plusieurs niveaux hiérarchiques. Afin de réduire la complexité de la représentation des systèmes incertains, nous construisons une base de propriétés de dissipativité pour chaque sous-système incertain de chaque niveau hiérarchique. Cette base contient plusieurs éléments qui caractérisent des informations utiles sur le comportement de systèmes incertains. Des exemples de telles caractérisations sont : la caractérisation de la phase incertaine, la caractérisation du gain incertain, etc.. L'obtention de chaque élément est relaxée comme un problème d'optimisation convexe ou quasi-convexe sous contraintes LMI. L'analyse de la robustesse de systèmes incertains de grande dimension est ensuite faite de façon hiérarchique en propageant ces bases de propriétés de dissipativité d'un niveau hiérarchique à un autre. Nous proposons deux algorithmes d'analyse hiérarchique qui permettent de réduire le temps de calcul nécessaire pour analyser la robustesse de ces systèmes. Un avantage important de notre approche est la possibilité d'exécuter des parties de ces algorithmes de façon parallèle à chaque niveau hiérarchique ce qui diminuera de façon importante ce temps de calcul. Pour finir et dans le même contexte de système de grande dimension, nous nous intéressons à l'analyse de la performance dans les réseaux électriques et plus particulièrement «l'analyse du flux de puissances incertaines dans les réseaux électriques de distribution». Les sources d'énergies renouvelables comme les éoliennes et les panneaux solaires sont influencées par plusieurs facteurs : le vent, l'ensoleillement, etc.. Les puissances générées par ces sources sont alors intermittentes, variables et difficiles à prévoir. L'intégration de telles sources de puissance dans les réseaux électriques influencera les performances en introduisant des incertitudes sur les différentes tensions du réseau. L'analyse de l'impact des incertitudes de puissances sur les tensions est appelée «analyse du flux de puissances incertaines». La détermination de bornes sur les modules des différentes tensions est formulée comme un problème d'optimisation convexe sous contraintes LMI. / This PhD thesis concerns robustness analysis (stability and performance) of uncertain large scale systems with hierarchical structure. These systems are obtained by interconnecting several uncertain sub-systems through a hierarchical topology. Robustness analysis of these systems is a two aspect problem: robustness and large scale. The efficient resolution of this problem using usual approaches is difficult, even impossible, due to the high complexity and the large size of the associated optimization problem. The consequence of this complexity is an important increase of the computation time required to solve this optimization problem. In order to reduce this computation time, the existing results in the literature focus on particular classes of uncertain linear large scale systems. Furthermore, the hierarchical structure of the large scale system is not taken into account, which means, from our point of view, that these results have several limitations on different levels. Our objective is to exploit the hierarchical structure to obtain a set of small scale size optimization problems instead of one large scale optimization problem which will result in an important decrease in the computation time. Furthermore, another advantage of this approach is the possibility of solving these small scale optimization problems in the same time using parallel computing. In order to take into account the hierarchical structure, we model the uncertain large scale system as the interconnection of uncertain sub-systems which themselves are the interconnection of other uncertain sub-systems, etc.. This recursive modelling is performed at several hierarchical levels. In order to reduce the representation complexity of uncertain systems, we construct a basis of dissipativity properties for each uncertain sub-system at each hierarchical level. This basis contains several elements which characterize different useful information about uncertain system behaviour. Examples of such characterizations are: uncertain phase characterization, uncertain gain characterization, etc.. Obtaining each of these elements is relaxed as convex or quasi-convex optimization problem under LMI constraints. Robustness analysis of uncertain large scale systems is then performed in a hierarchical way by propagating these dissipativity property bases from one hierarchical level to another. We propose two hierarchical analysis algorithms which allow to reduce the computation time required to perform the robustness analysis of the large scale systems. Another key point of these algorithms is the possibility to be performed in parallel at each hierarchical level. The advantage of performing robustness analysis in parallel is an important decrease of the required computation time. Finally and within the same context of robustness analysis of uncertain large scale systems, we are interested in robustness analysis of power networks and more precisely in "the uncertain power flow analysis in distribution networks". The renewable energy resources such as solar panels and wind turbines are influenced by many factors: wind, solar irradiance, etc.. Therefore, the power generated by these resources is intermittent, variable and difficult to predict. The integration of such resources in power networks will influence the network performances by introducing uncertainties on the different network voltages. The analysis of the impact of power uncertainties on the voltages is called "uncertain power flow analysis". Obtaining the boundaries for the different modulus of these voltages is formulated as a convex optimization problem under LMI constraints
80

Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation / Prediction of individual sequences and prediction in the statistical framework : some links around sparse regression and aggregation techniques

Gerchinovitz, Sébastien 12 December 2011 (has links)
Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique. / The topics addressed in this thesis lie in statistical machine learning. Our main framework is the prediction of arbitrary deterministic sequences (or individual sequences). It includes online learning tasks for which we cannot make any stochasticity assumption on the data to be predicted, which requires robust methods. In this work, we analyze several connections between the theory of individual sequences and the classical statistical setting, e.g., the regression model with fixed or random design, where stochastic assumptions are made. These two frameworks benefit from one another: some statistical methods can be adapted to the online learning setting to satisfy deterministic performance guarantees. Conversely, some individual-sequence techniques are useful to tune the parameters of a statistical method and to get risk bounds that are adaptive to the unknown variance. We study such connections for several connected problems: high-dimensional online linear regression under a sparsity scenario (with an application to the stochastic setting), online linear regression on L1-balls, and aggregation of nonlinear models in a model selection framework (regression on a fixed design). We also use and develop stochastic techniques to compute the minimax rates of game-theoretic online measures of performance (e.g., internal and swap regrets) in a deterministic or stochastic environment.

Page generated in 0.12 seconds