Global ETD Search

21	Matrix completion : statistical and computational aspects / Complétion de matrice : aspects statistiques et computationnels Lafond, Jean 19 December 2016 (has links) Dans cette thèse nous nous intéressons aux méthodes de complétion de matrices de faible rang et étudions certains problèmes reliés. Un premier ensemble de résultats visent à étendre les garanties statistiques existantes pour les modèles de complétion avec bruit additif sous-gaussiens à des distributions plus générales. Nous considérons en particulier les distributions multinationales et les distributions appartenant à la famille exponentielle. Pour ces dernières, nous prouvons l'optimalité (au sens minimax) à un facteur logarithmique près des estimateurs à pénalité norme trace. Un second ensemble de résultats concernent l'algorithme du gradient conditionnel qui est notamment utilisé pour calculer les estimateurs précédents. Nous considérons en particulier deux algorithmes de type gradient conditionnel dans le cadre de l'optimisation stochastique. Nous donnons les conditions sous lesquelles ces algorithmes atteignent les performance des algorithmes de type gradient projeté. / This thesis deals with the low rank matrix completion methods and focuses on some related problems, of both statistical and algorithmic nature. The first part of this work extends the existing statistical guarantees obained for sub-Gaussian additive noise models, to more general distributions. In particular,we provide upper bounds on the prediction error of trace norm penalized estimatorwith high probability for multinomial distributions and for distributions belonging to the exponential family. For the latter, we prove that the trace norm penalized estimators are minimax optimal up to a logarithmic factor by giving a lower bound.The second part of this work focuses on the conditionnal gradient algorithm, which is used in particular to compute previous estimators. We consider the stochastic optimization framework and gives the convergence rate of twovariants of the conditional gradient algorithm. We gives the conditions under which these algorithms match the performance of projected gradient algorithms. Statistique en grande dimension Complétion de matrice Apprentissage à grande échelle High dimension statistics Matrix completion Large scale optimization
22	Ultra High Dimension Variable Selection with Threshold Partial Correlations Liu, Yiheng 23 August 2022 (has links) No description available. Statistics Variable Selection Partial Correlation High Dimension Elliptical Contoured Distribution Kendall's Tau Survival Analysis
23	High-dimensional statistical methods for inter-subject studies in neuroimaging Fritsch, Virgile 18 December 2013 (has links) (PDF) La variabilité inter-individuelle est un obstacle majeur à l'analyse d'images médicales, en particulier en neuroimagerie. Il convient de distinguer la variabilité naturelle ou statistique, source de potentiels effets d'intérêt pour du diagnostique, de la variabilité artefactuelle, constituée d'effets de nuisance liés à des problèmes expérimentaux ou techniques, survenant lors de l'acquisition ou le traitement des données. La dernière peut s'avérer bien plus importante que la première : en neuroimagerie, les problèmes d'acquisition peuvent ainsi masquer la variabilité fonctionnelle qui est par ailleurs associée à une maladie, un trouble psychologique, ou à l'expression d'un code génétique spécifique. La qualité des procédures statistiques utilisées pour les études de groupe est alors diminuée car lesdites procédures reposent sur l'hypothèse d'une population homogène, hypothèse difficile à vérifier manuellement sur des données de neuroimagerie dont la dimension est élevée. Des méthodes automatiques ont été mises en oeuvre pour tenter d'éliminer les sujets trop déviants et ainsi rendre les groupes étudiés plus homogènes. Cette pratique n'a pas entièrement fait ses preuves pour autant, attendu qu'aucune étude ne l'a clairement validée, et que le niveau de tolérance à choisir reste arbitraire. Une autre approche consiste alors à utiliser des procédures d'analyse et de traitement des données intrinsèquement insensibles à l'hypothèse d'homogénéité. Elles sont en outre mieux adaptées aux données réelles en ce qu'elles tolèrent dans une certaine mesure d'autres violations d'hypothèse plus subtiles telle que la normalité des données. Un autre problème, partiellement lié, est le manque de stabilité et de sensibilité des méthodes d'analyse au niveau voxel, sources de résultats qui ne sont pas reproductibles.Nous commençons cette thèse par le développement d'une méthode de détection d'individus atypiques adaptée aux données de neuroimagerie, qui fournit un contrôle statistique sur l'inclusion de sujets : nous proposons une version regularisée d'un estimateur de covariance robuste pour le rendre utilisable en grande dimension. Nous comparons plusieurs types de régularisation et concluons que les projections aléatoires offrent le meilleur compromis. Nous présentons également des procédures non-paramétriques dont nous montrons la qualité de performance, bien qu'elles n'offrent aucun contrôle statistique. La seconde contribution de cette thèse est une nouvelle approche, nommée RPBI (Randomized Parcellation Based Inference), répondant au manque de reproductibilité des méthodes classiques. Nous stabilisons l'approche d'analyse à l'échelle de la parcelle en agrégeant plusieurs analyses indépendantes, pour lesquelles le partitionnement du cerveau en parcelles varie d'une analyse à l'autre. La méthode permet d'atteindre un niveau de sensibilité supérieur à celui des méthodes de l'état de l'art, ce que nous démontrons par des expériences sur des données synthétiques et réelles. Notre troisième contribution est une application de la régression robuste aux études de neuroimagerie. Poursuivant un travail déjà existant, nous nous concentrons sur les études à grande échelle effectuées sur plus de cent sujets. Considérant à la fois des données simulées et des données réelles, nous montrons que l'utilisation de la régression robuste améliore la sensibilité des analyses. Nous démontrons qu'il est important d'assurer une résistance face aux violations d'hypothèse, même dans les cas où une inspection minutieuse du jeu de données a été conduite au préalable. Enfin, nous associons la régression robuste à notre méthode d'analyse RPBI afin d'obtenir des tests statistiques encore plus sensibles. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Neuroimaging FMRI Robust statistics Covariance estimation Outlier detection Group analysis High-dimension
24	Construction et estimation de copules en grande dimension / Construction and estimation of high-dimensional copulas Mazo, Gildas 17 November 2014 (has links) Ces dernières décennies, nous avons assisté à l'émergence du concept de copule en modélisation statistique. Les copules permettent de faire une analyse séparée des marges et de la structure de dépendance induite par une distribution statistique. Cette séparation facilite l'incorporation de lois non gaussiennes, et en particulier la prise en compte des dépendances non linéaires entre les variables aléatoires. La finance et l'hydrologie sont deux exemples de sciences où les copules sont très utilisées. Cependant, bien qu'il existe beaucoup de familles de copules bivariées, le choix reste limité en plus grande dimension: la construction de copules multivariées/en grande dimension reste un problème ouvert aujourd'hui. Cette thèse présente trois contributions à la modélisation et à l'inférence de copules en grande dimension. Le premier modèle proposé s'écrit comme un produit de copules bivariées, où chaque copule bivariée se combine aux autres via un graphe en arbre. Elle permet de prendre en compte les différents degrés de dépendance entre les différentes paires. La seconde copule est un modèle à facteurs basé sur une classe nonparamétrique de copules bivariées. Elle permet d'obtenir un bon équilibre entre flexibilité et facilité d'utilisation. Cette thèse traite également de l'inférence paramétrique de copules dans le cas général, en établissant les propriétés asymptotiques d'un estimateur des moindres carrés pondérés basé sur les coefficients de dépendance. Les modèles et méthodes proposés sont appliqués sur des données hydrologiques (pluies et débits de rivières). / In the last decades, copulas have been more and more used in statistical modeling. Their popularity owes much to the fact that they allow to separate the analysis of the margins from the analysis of the dependence structure induced by the underlying distribution. This renders easier the modeling of non Gaussian distributions, and, in particular, it allows to take into account non linear dependencies between random variables. Finance and hydrology are two examples of scientific fields where the use of copulas is nowadays standard. However, while many bivariate families exist in the literature, multivariate/high dimensional copulas are much more difficult to construct. This thesis presents three contributions to copula modeling and inference, with an emphasis on high dimensional problems. The first model writes as a product of bivariate copulas and is underlain by a tree structure where each edge represents a bivariate copula. Hence, we are able to model different pairs with different dependence properties. The second one is a factor model built on a nonparametric class of bivariate copulas. It exhibits a good balance between tractability and flexibility. This thesis also deals with the parametric inference of copula models in general. Indeed, the asymptotic properties of a weighted least-squares estimator based on dependence coefficients are established. The models and methods have been applied to hydrological data (flow rates and rain falls). Copules Grande dimension Inférence Valeurs extrêmes Modèles à facteurs Copulas High dimension Inference Extreme values Factor models 510
25	Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension / Stability of variable selection in regression and classification issues for correlated data in high dimension Perthame, Emeline 16 October 2015 (has links) Les données à haut-débit, par leur grande dimension et leur hétérogénéité, ont motivé le développement de méthodes statistiques pour la sélection de variables. En effet, le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches de sélection habituelles, construites sous l'hypothèse d'indépendance des variables, sont alors remises en question car elles peuvent conduire à des décisions erronées. L'objectif de cette thèse est de contribuer à l'amélioration des méthodes de sélection de variables pour la régression et la classification supervisée, par une meilleure prise en compte de la dépendance entre les statistiques de sélection. L'ensemble des méthodes proposées s'appuie sur la description de la dépendance entre covariables par un petit nombre de variables latentes. Ce modèle à facteurs suppose que les covariables sont indépendantes conditionnellement à un vecteur de facteurs latents. Une partie de ce travail de thèse porte sur l'analyse de données de potentiels évoqués (ERP). Les ERP sont utilisés pour décrire par électro-encéphalographie l'évolution temporelle de l'activité cérébrale. Sur les courts intervalles de temps durant lesquels les variations d'ERPs peuvent être liées à des conditions expérimentales, le signal psychologique est faible, au regard de la forte variabilité inter-individuelle des courbes ERP. En effet, ces données sont caractérisées par une structure de dépendance temporelle forte et complexe. L'analyse statistique de ces données revient à tester pour chaque instant un lien entre l'activité cérébrale et des conditions expérimentales. Une méthode de décorrélation des statistiques de test est proposée, basée sur la modélisation jointe du signal et de la dépendance à partir d'une connaissance préalable d'instants où le signal est nul. Ensuite, l'apport du modèle à facteurs dans le cadre général de l'Analyse Discriminante Linéaire est étudié. On démontre que la règle linéaire de classification optimale conditionnelle aux facteurs latents est plus performante que la règle non-conditionnelle. Un algorithme de type EM pour l'estimation des paramètres du modèle est proposé. La méthode de décorrélation des données ainsi définie est compatible avec un objectif de prédiction. Enfin, on aborde de manière plus formelle les problématiques de détection et d'identification de signal en situation de dépendance. On s'intéresse plus particulièrement au Higher Criticism (HC), défini sous l'hypothèse d'un signal rare de faible amplitude et sous l'indépendance. Il est montré dans la littérature que cette méthode atteint des bornes théoriques de détection. Les propriétés du HC en situation de dépendance sont étudiées et les bornes de détectabilité et d'estimabilité sont étendues à des situations arbitrairement complexes de dépendance. Dans le cadre de l'identification de signal, une adaptation de la méthode Higher Criticism Thresholding par décorrélation par les innovations est proposée. / The analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables. The goal of this thesis is to contribute to the improvement of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. All the methods proposed in this thesis are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables. A part of this thesis focuses on the analysis of event-related potentials data (ERP). ERPs are now widely collected in psychological research to determine the time courses of mental events. In the significant analysis of the relationships between event-related potentials and experimental covariates, the psychological signal is often both rare, since it only occurs on short intervals and weak, regarding the huge between-subject variability of ERP curves. Indeed, this data is characterized by a temporal dependence pattern both strong and complex. Moreover, studying the effect of experimental condition on brain activity for each instant is a multiple testing issue. We propose to decorrelate the test statistics by a joint modeling of the signal and time-dependence among test statistics from a prior knowledge of time points during which the signal is null. Second, an extension of decorrelation methods is proposed in order to handle a variable selection issue in the linear supervised classification models framework. The contribution of factor model assumption in the general framework of Linear Discriminant Analysis is studied. It is shown that the optimal linear classification rule conditionally to these factors is more efficient than the non-conditional rule. Next, an Expectation-Maximization algorithm for the estimation of the model parameters is proposed. This method of data decorrelation is compatible with a prediction purpose. At last, the issues of detection and identification of a signal when features are dependent are addressed more analytically. We focus on the Higher Criticism (HC) procedure, defined under the assumptions of a sparse signal of low amplitude and independence among tests. It is shown in the literature that this method reaches theoretical bounds of detection. Properties of HC under dependence are studied and the bounds of detectability and estimability are extended to arbitrarily complex situations of dependence. Finally, in the context of signal identification, an extension of Higher Criticism Thresholding based on innovations is proposed. Statistique Grande dimension Sélection de variables Dépendance Régression Modèle linéaire généralisé Statistics High dimension Variable selection Dependence Regression Generalized linear model
26	Testing Structure of Covariance Matrix under High-dimensional Regime Wu, Jiawei January 2020 (has links) Statisticians are interested in testing the structure of covariance matrices, especially under the high-dimensional scenario in which the dimensionality of data matrices exceeds the sample size. Many test statistics have been introduced to test whether the covariance matrix is equal to identity structure (<img src="http://www.diva-portal.org/cgi-bin/mimetex.cgi?H_%7B01%7D:%20%5CSigma%20=%20I_p" />), sphericity structure (<img src="http://www.diva-portal.org/cgi-bin/mimetex.cgi?H_%7B02%7D:%20%5CSigma%20=%20%5Csigma%5E2I_p" />) or diagonal structure (<img src="http://www.diva-portal.org/cgi-bin/mimetex.cgi?H_%7B03%7D:%20%5CSigma%20=%20diag(d_1,%20d_2,%5Cdots,d_p)" />). These test statistics work under the assumption that data follows the multivariate normal distribution. In our thesis work, we want to compare the performance of test statistics for each structure test under given assumptions and when the distributional assumption is violated, and compare the test sensitivity to outliers. We apply simulation studies with the help of significance level, power of test, and goodness of fit tests to evaluate the performance of structure test statistics. In conclusion, we identify the recommended test statistics that perform well under different scenarios. Moreover, we find out that the test statistics for the identity structure test are more sensitive to the changes of distribution assumptions and outliers compared with others. The test statistics for the diagonal structure test have a better tolerant to the change of the data matrices. Covariance matrix Structure test High-dimension data Outliers Significance level Power of test Goodness of fit test Probability Theory and Statistics Sannolikhetsteori och statistik
27	On unsupervised learning in high dimension / Sur l'apprentissage non supervisé en haute dimension Sebbar, Mehdi 12 December 2017 (has links) Dans ce mémoire de thèse, nous abordons deux thèmes, le clustering en haute dimension d'une part et l'estimation de densités de mélange d'autre part. Le premier chapitre est une introduction au clustering. Nous y présentons différentes méthodes répandues et nous nous concentrons sur un des principaux modèles de notre travail qui est le mélange de Gaussiennes. Nous abordons aussi les problèmes inhérents à l'estimation en haute dimension et la difficulté d'estimer le nombre de clusters. Nous exposons brièvement ici les notions abordées dans ce manuscrit. Considérons une loi mélange de K Gaussiennes dans R^p. Une des approches courantes pour estimer les paramètres du mélange est d'utiliser l'estimateur du maximum de vraisemblance. Ce problème n'étant pas convexe, on ne peut garantir la convergence des méthodes classiques. Cependant, en exploitant la biconvexité de la log-vraisemblance négative, on peut utiliser la procédure itérative 'Expectation-Maximization' (EM). Malheureusement, cette méthode n'est pas bien adaptée pour relever les défis posés par la grande dimension. Par ailleurs, cette méthode requiert de connaître le nombre de clusters. Le Chapitre 2 présente trois méthodes que nous avons développées pour tenter de résoudre les problèmes décrits précédemment. Les travaux qui y sont exposés n'ont pas fait l'objet de recherches approfondies pour diverses raisons. La première méthode, 'lasso graphique sur des mélanges de Gaussiennes', consiste à estimer les matrices inverses des matrices de covariance dans l'hypothèse où celles-ci sont parcimonieuses. Nous adaptons la méthode du lasso graphique de [Friedman et al., 2007] sur une composante dans le cas d'un mélange et nous évaluons expérimentalement cette méthode. Les deux autres méthodes abordent le problème d'estimation du nombre de clusters dans le mélange. La première est une estimation pénalisée de la matrice des probabilités postérieures dont la composante (i,j) est la probabilité que la i-ème observation soit dans le j-ème cluster. Malheureusement, cette méthode s'est avérée trop coûteuse en complexité. Enfin, la deuxième méthode considérée consiste à pénaliser le vecteur de poids afin de le rendre parcimonieux. Cette méthode montre des résultats prometteurs. Dans le Chapitre 3, nous étudions l'estimateur du maximum de vraisemblance d'une densité de n observations i.i.d. sous l’hypothèse qu'elle est bien approximée par un mélange de plusieurs densités données. Nous nous intéressons aux performances de l'estimateur par rapport à la perte de Kullback-Leibler. Nous établissons des bornes de risque sous la forme d'inégalités d'oracle exactes, que ce soit en probabilité ou en espérance. Nous démontrons à travers ces bornes que, dans le cas du problème d’agrégation convexe, l'estimateur du maximum de vraisemblance atteint la vitesse (log K)/n)^{1/2}, qui est optimale à un terme logarithmique près, lorsque le nombre de composant est plus grand que n^{1/2}. Plus important, sous l’hypothèse supplémentaire que la matrice de Gram des composantes du dictionnaire satisfait la condition de compatibilité, les inégalités d'oracles obtenues donnent la vitesse optimale dans le scénario parcimonieux. En d'autres termes, si le vecteur de poids est (presque) D-parcimonieux, nous obtenons une vitesse (Dlog K)/n. En complément de ces inégalités d'oracle, nous introduisons la notion d’agrégation (presque)-D-parcimonieuse et établissons pour ce type d’agrégation les bornes inférieures correspondantes. Enfin, dans le Chapitre 4, nous proposons un algorithme qui réalise l'agrégation en Kullback-Leibler de composantes d'un dictionnaire telle qu'étudiée dans le Chapitre 3. Nous comparons sa performance avec différentes méthodes. Nous proposons ensuite une méthode pour construire le dictionnaire de densités et l’étudions de manière numérique. Cette thèse a été effectué dans le cadre d’une convention CIFRE avec l’entreprise ARTEFACT. / In this thesis, we discuss two topics, high-dimensional clustering on the one hand and estimation of mixing densities on the other. The first chapter is an introduction to clustering. We present various popular methods and we focus on one of the main models of our work which is the mixture of Gaussians. We also discuss the problems with high-dimensional estimation (Section 1.3) and the difficulty of estimating the number of clusters (Section 1.1.4). In what follows, we present briefly the concepts discussed in this manuscript. Consider a mixture of $K$ Gaussians in $RR^p$. One of the common approaches to estimate the parameters is to use the maximum likelihood estimator. Since this problem is not convex, we can not guarantee the convergence of classical methods such as gradient descent or Newton's algorithm. However, by exploiting the biconvexity of the negative log-likelihood, the iterative 'Expectation-Maximization' (EM) procedure described in Section 1.2.1 can be used. Unfortunately, this method is not well suited to meet the challenges posed by the high dimension. In addition, it is necessary to know the number of clusters in order to use it. Chapter 2 presents three methods that we have developed to try to solve the problems described above. The works presented there have not been thoroughly researched for various reasons. The first method that could be called 'graphical lasso on Gaussian mixtures' consists in estimating the inverse matrices of covariance matrices $Sigma$ (Section 2.1) in the hypothesis that they are parsimonious. We adapt the graphic lasso method of [Friedman et al., 2007] to a component in the case of a mixture and experimentally evaluate this method. The other two methods address the problem of estimating the number of clusters in the mixture. The first is a penalized estimate of the matrix of posterior probabilities $ Tau in RR ^ {n times K} $ whose component $ (i, j) $ is the probability that the $i$-th observation is in the $j$-th cluster. Unfortunately, this method proved to be too expensive in complexity (Section 2.2.1). Finally, the second method considered is to penalize the weight vector $ pi $ in order to make it parsimonious. This method shows promising results (Section 2.2.2). In Chapter 3, we study the maximum likelihood estimator of density of $n$ i.i.d observations, under the assumption that it is well approximated by a mixture with a large number of components. The main focus is on statistical properties with respect to the Kullback-Leibler loss. We establish risk bounds taking the form of sharp oracle inequalities both in deviation and in expectation. A simple consequence of these bounds is that the maximum likelihood estimator attains the optimal rate $((log K)/n)^{1/2}$, up to a possible logarithmic correction, in the problem of convex aggregation when the number $K$ of components is larger than $n^{1/2}$. More importantly, under the additional assumption that the Gram matrix of the components satisfies the compatibility condition, the obtained oracle inequalities yield the optimal rate in the sparsity scenario. That is, if the weight vector is (nearly) $D$-sparse, we get the rate $(Dlog K)/n$. As a natural complement to our oracle inequalities, we introduce the notion of nearly-$D$-sparse aggregation and establish matching lower bounds for this type of aggregation. Finally, in Chapter 4, we propose an algorithm that performs the Kullback-Leibler aggregation of components of a dictionary as discussed in Chapter 3. We compare its performance with different methods: the kernel density estimator , the 'Adaptive Danzig' estimator, the SPADES and EM estimator with the BIC criterion. We then propose a method to build the dictionary of densities and study it numerically. This thesis was carried out within the framework of a CIFRE agreement with the company ARTEFACT. Clustering Agrégation Grande dimension Estimation de densité Mélange de gaussiennes Gaussian mixtures Clustering High dimension Density estimation Aggregation 519
28	High-dimensional statistical methods for inter-subject studies in neuroimaging / Analyse statistique de données en grande dimension : application à l'étude de la variabilité inter-individuelle en neuroimagerie Fritsch, Virgile 18 December 2013 (has links) La variabilité inter-individuelle est un obstacle majeur à l'analyse d'images médicales, en particulier en neuroimagerie. Il convient de distinguer la variabilité naturelle ou statistique, source de potentiels effets d'intérêt pour du diagnostique, de la variabilité artefactuelle, constituée d'effets de nuisance liés à des problèmes expérimentaux ou techniques, survenant lors de l'acquisition ou le traitement des données. La dernière peut s'avérer bien plus importante que la première : en neuroimagerie, les problèmes d'acquisition peuvent ainsi masquer la variabilité fonctionnelle qui est par ailleurs associée à une maladie, un trouble psychologique, ou à l'expression d'un code génétique spécifique. La qualité des procédures statistiques utilisées pour les études de groupe est alors diminuée car lesdites procédures reposent sur l'hypothèse d'une population homogène, hypothèse difficile à vérifier manuellement sur des données de neuroimagerie dont la dimension est élevée. Des méthodes automatiques ont été mises en oeuvre pour tenter d'éliminer les sujets trop déviants et ainsi rendre les groupes étudiés plus homogènes. Cette pratique n'a pas entièrement fait ses preuves pour autant, attendu qu'aucune étude ne l'a clairement validée, et que le niveau de tolérance à choisir reste arbitraire. Une autre approche consiste alors à utiliser des procédures d'analyse et de traitement des données intrinsèquement insensibles à l'hypothèse d'homogénéité. Elles sont en outre mieux adaptées aux données réelles en ce qu'elles tolèrent dans une certaine mesure d'autres violations d'hypothèse plus subtiles telle que la normalité des données. Un autre problème, partiellement lié, est le manque de stabilité et de sensibilité des méthodes d'analyse au niveau voxel, sources de résultats qui ne sont pas reproductibles.Nous commençons cette thèse par le développement d'une méthode de détection d'individus atypiques adaptée aux données de neuroimagerie, qui fournit un contrôle statistique sur l'inclusion de sujets : nous proposons une version regularisée d'un estimateur de covariance robuste pour le rendre utilisable en grande dimension. Nous comparons plusieurs types de régularisation et concluons que les projections aléatoires offrent le meilleur compromis. Nous présentons également des procédures non-paramétriques dont nous montrons la qualité de performance, bien qu'elles n'offrent aucun contrôle statistique. La seconde contribution de cette thèse est une nouvelle approche, nommée RPBI (Randomized Parcellation Based Inference), répondant au manque de reproductibilité des méthodes classiques. Nous stabilisons l'approche d'analyse à l'échelle de la parcelle en agrégeant plusieurs analyses indépendantes, pour lesquelles le partitionnement du cerveau en parcelles varie d'une analyse à l'autre. La méthode permet d'atteindre un niveau de sensibilité supérieur à celui des méthodes de l'état de l'art, ce que nous démontrons par des expériences sur des données synthétiques et réelles. Notre troisième contribution est une application de la régression robuste aux études de neuroimagerie. Poursuivant un travail déjà existant, nous nous concentrons sur les études à grande échelle effectuées sur plus de cent sujets. Considérant à la fois des données simulées et des données réelles, nous montrons que l'utilisation de la régression robuste améliore la sensibilité des analyses. Nous démontrons qu'il est important d'assurer une résistance face aux violations d'hypothèse, même dans les cas où une inspection minutieuse du jeu de données a été conduite au préalable. Enfin, nous associons la régression robuste à notre méthode d'analyse RPBI afin d'obtenir des tests statistiques encore plus sensibles. / La variabilité inter-individuelle est un obstacle majeur à l'analyse d'images médicales, en particulier en neuroimagerie. Il convient de distinguer la variabilité naturelle ou statistique, source de potentiels effets d'intérêt pour du diagnostique, de la variabilité artefactuelle, constituée d'effets de nuisance liés à des problèmes expérimentaux ou techniques, survenant lors de l'acquisition ou le traitement des données. La dernière peut s'avérer bien plus importante que la première : en neuroimagerie, les problèmes d'acquisition peuvent ainsi masquer la variabilité fonctionnelle qui est par ailleurs associée à une maladie, un trouble psychologique, ou à l'expression d'un code génétique spécifique. La qualité des procédures statistiques utilisées pour les études de groupe est alors diminuée car lesdites procédures reposent sur l'hypothèse d'une population homogène, hypothèse difficile à vérifier manuellement sur des données de neuroimagerie dont la dimension est élevée. Des méthodes automatiques ont été mises en oeuvre pour tenter d'éliminer les sujets trop déviants et ainsi rendre les groupes étudiés plus homogènes. Cette pratique n'a pas entièrement fait ses preuves pour autant, attendu qu'aucune étude ne l'a clairement validée, et que le niveau de tolérance à choisir reste arbitraire. Une autre approche consiste alors à utiliser des procédures d'analyse et de traitement des données intrinsèquement insensibles à l'hypothèse d'homogénéité. Elles sont en outre mieux adaptées aux données réelles en ce qu'elles tolèrent dans une certaine mesure d'autres violations d'hypothèse plus subtiles telle que la normalité des données. Un autre problème, partiellement lié, est le manque de stabilité et de sensibilité des méthodes d'analyse au niveau voxel, sources de résultats qui ne sont pas reproductibles.Nous commençons cette thèse par le développement d'une méthode de détection d'individus atypiques adaptée aux données de neuroimagerie, qui fournit un contrôle statistique sur l'inclusion de sujets : nous proposons une version regularisée d'un estimateur de covariance robuste pour le rendre utilisable en grande dimension. Nous comparons plusieurs types de régularisation et concluons que les projections aléatoires offrent le meilleur compromis. Nous présentons également des procédures non-paramétriques dont nous montrons la qualité de performance, bien qu'elles n'offrent aucun contrôle statistique. La seconde contribution de cette thèse est une nouvelle approche, nommée RPBI (Randomized Parcellation Based Inference), répondant au manque de reproductibilité des méthodes classiques. Nous stabilisons l'approche d'analyse à l'échelle de la parcelle en agrégeant plusieurs analyses indépendantes, pour lesquelles le partitionnement du cerveau en parcelles varie d'une analyse à l'autre. La méthode permet d'atteindre un niveau de sensibilité supérieur à celui des méthodes de l'état de l'art, ce que nous démontrons par des expériences sur des données synthétiques et réelles. Notre troisième contribution est une application de la régression robuste aux études de neuroimagerie. Poursuivant un travail déjà existant, nous nous concentrons sur les études à grande échelle effectuées sur plus de cent sujets. Considérant à la fois des données simulées et des données réelles, nous montrons que l'utilisation de la régression robuste améliore la sensibilité des analyses. Nous démontrons qu'il est important d'assurer une résistance face aux violations d'hypothèse, même dans les cas où une inspection minutieuse du jeu de données a été conduite au préalable. Enfin, nous associons la régression robuste à notre méthode d'analyse RPBI afin d'obtenir des tests statistiques encore plus sensibles. Neuroimagerie IRMf Statistiques robustes Estimation de covariance Détection de sujets aberrants Analyse de groupe Grande dimension Neuroimaging FMRI Robust statistics Covariance estimation Outlier detection Group analysis High-dimension
29	Essays on econometric modelling of temporal networks / Essais sur la modélisation économétrique des réseaux temporels Iacopini, Matteo 05 July 2018 (has links) La théorie des graphes a longtemps été étudiée en mathématiques et en probabilité en tant qu’outil pour décrire la dépendance entre les nœuds. Cependant, ce n’est que récemment qu’elle a été mise en œuvre sur des données, donnant naissance à l’analyse statistique des réseaux réels.La topologie des réseaux économiques et financiers est remarquablement complexe: elle n’est généralement pas observée, et elle nécessite ainsi des procédures inférentielles adéquates pour son estimation, d’ailleurs non seulement les nœuds, mais la structure de la dépendance elle-même évolue dans le temps. Des outils statistiques et économétriques pour modéliser la dynamique de changement de la structure du réseau font défaut, malgré leurs besoins croissants dans plusieurs domaines de recherche. En même temps, avec le début de l’ère des “Big data”, la taille des ensembles de données disponibles devient de plus en plus élevée et leur structure interne devient de plus en plus complexe, entravant les processus inférentiels traditionnels dans plusieurs cas. Cette thèse a pour but de contribuer à ce nouveau champ littéraire qui associe probabilités, économie, physique et sociologie en proposant de nouvelles méthodologies statistiques et économétriques pour l’étude de l’évolution temporelle des structures en réseau de moyenne et haute dimension. / Graph theory has long been studied in mathematics and probability as a tool for describing dependence between nodes. However, only recently it has been implemented on data, giving birth to the statistical analysis of real networks.The topology of economic and financial networks is remarkably complex: it is generally unobserved, thus requiring adequate inferential procedures for it estimation, moreover not only the nodes, but the structure of dependence itself evolves over time. Statistical and econometric tools for modelling the dynamics of change of the network structure are lacking, despite their increasing requirement in several fields of research. At the same time, with the beginning of the era of “Big data” the size of available datasets is becoming increasingly high and their internal structure is growing in complexity, hampering traditional inferential processes in multiple cases.This thesis aims at contributing to this newborn field of literature which joins probability, economics, physics and sociology by proposing novel statistical and econometric methodologies for the study of the temporal evolution of network structures of medium-high dimension. Théorie des graphes Analyse statistique Réseaux réels Tensor calculus Bayesian statistics High-dimension Networks Functional data analysis Nonparametric statistics Copula Time series 510
30	Construction de modèles réduits pour le calcul des performances des avions / Surrogate modeling construction for aircraft performances computation Bondouy, Manon 08 February 2016 (has links) L'objectif de cette thèse est de mettre en place une méthodologie et les outils associés en vue d'harmoniser le processus de construction des modèles de performances et de qualités de vol. Pour ce faire, des techniques de réduction de modèles ont été élaborées afin de satisfaire des objectifs industriels contradictoires de taille mémoire, de précision et de temps de calcul. Après avoir établi une méthodologie de construction de modèles réduits et effectué un état de l'art critique, les Réseaux de Neurones et le High Dimensional Model Representation ont été choisis, puis adaptés et validés sur des fonctions de petite dimension. Pour traiter les problèmes de dimension supérieure, une méthode de réduction basée sur la sélection optimale de sous-modèles réduits a été développée, qui permet de satisfaire les exigences de rapidité, de précision et de taille mémoire. L'efficacité de cette méthode a finalement été démontrée sur un modèle de performances des avions destiné à être embarqué. / The objective of this thesis is to provide a methodology and the associated tools in order to standardize the building process of performance and handling quality models. This typically leads to elaborate surrogate models in order to satisfy industrial contrasting objectives of memory size, accuracy and computation time. After listing the different steps of a construction of surrogates methodology and realizing a critical state of the art, Neural Networks and High Dimensional Model Representation methods have been selected and validated on low dimension functions. For functions of higher dimension, a reduction method based on the optimal selection of submodel surrogates has been developed which allows to satisfy the requirements on accuracy, computation time and memory size. The efficiency of this method has been demonstrated on an aircraft performance model which will be embedded into the avionic systems. Qualité de Vol Performances des avions Modèle réduit High Dimensional Model Representation Réseaux de neurones Handling quality Aircraft performance Surrogate model High dimension model representation Neural networks

Search results