Spelling suggestions: "subject:"statistiques"" "subject:"tatistiques""
1 |
Mesures de dépendance pour la séparation aveugle de sources. Application aux mélanges post non linéairesAchard, Sophie 02 December 2003 (has links) (PDF)
Cette thèse traite de méthodes statistiques appliquées au traitement du signal. Afin de résoudre le problème de séparation aveugle de sources à l'aide de la méthode d'analyse en composantes indépendantes, nous introduisons deux mesures de dépendance, l'une bien connue l'information mutuelle, et l'autre que nous appelons la mesure de dépendance quadratique. Nous montrons le lien de cette dernière avec les fonctions caractéristiques et en proposons une estimation simple, dont les propriétés asymptotiques sont obtenues grâce aux U-statistiques. Les choix du noyau et de la taille de fenêtre sont ainsi analysés. Enfin, la minimisation des mesures de dépendance permet de résoudre le problème de séparation de sources dans le cadre de mélanges post non linéaires. Plusieurs approches sont proposées, dont une non paramétrique basée sur les dérivées des non linéarités. Nous illustrons les obstacles à la minimisation par des graphes des fonctions objectifs.
|
2 |
Tests d’hypothèses statistiquement et algorithmiquement efficaces de similarité et de dépendance / Statistically and computationally efficient hypothesis tests for similarity and dependencyBounliphone, Wacha 30 January 2017 (has links)
Cette thèse présente de nouveaux tests d’hypothèses statistiques efficaces pour la relative similarité et dépendance, et l’estimation de la matrice de précision. La principale méthodologie adoptée dans cette thèse est la classe des estimateurs U-statistiques.Le premier test statistique porte sur les tests de relative similarité appliqués au problème de la sélection de modèles. Les modèles génératifs probabilistes fournissent un cadre puissant pour représenter les données. La sélection de modèles dans ce contexte génératif peut être difficile. Pour résoudre ce problème, nous proposons un nouveau test d’hypothèse non paramétrique de relative similarité et testons si un premier modèle candidat génère un échantillon de données significativement plus proche d’un ensemble de validation de référence.La deuxième test d’hypothèse statistique non paramétrique est pour la relative dépendance. En présence de dépendances multiples, les méthodes existantes ne répondent qu’indirectement à la question de la relative dépendance. Or, savoir si une dépendance est plus forte qu’une autre est important pour la prise de décision. Nous présentons un test statistique qui détermine si une variable dépend beaucoup plus d’une première variable cible ou d’une seconde variable.Enfin, une nouvelle méthode de découverte de structure dans un modèle graphique est proposée. En partant du fait que les zéros d’une matrice de précision représentent les indépendances conditionnelles, nous développons un nouveau test statistique qui estime une borne pour une entrée de la matrice de précision. Les méthodes existantes de découverte de structure font généralement des hypothèses restrictives de distributions gaussiennes ou parcimonieuses qui ne correspondent pas forcément à l’étude de données réelles. Nous introduisons ici un nouveau test utilisant les propriétés des U-statistics appliqués à la matrice de covariance, et en déduisons une borne sur la matrice de précision. / The dissertation presents novel statistically and computationally efficient hypothesis tests for relative similarity and dependency, and precision matrix estimation. The key methodology adopted in this thesis is the class of U-statistic estimators. The class of U-statistics results in a minimum-variance unbiased estimation of a parameter.The first part of the thesis focuses on relative similarity tests applied to the problem of model selection. Probabilistic generative models provide a powerful framework for representing data. Model selection in this generative setting can be challenging. To address this issue, we provide a novel non-parametric hypothesis test of relative similarity and test whether a first candidate model generates a data sample significantly closer to a reference validation set.Subsequently, the second part of the thesis focuses on developing a novel non-parametric statistical hypothesis test for relative dependency. Tests of dependence are important tools in statistical analysis, and several canonical tests for the existence of dependence have been developed in the literature. However, the question of whether there exist dependencies is secondary. The determination of whether one dependence is stronger than another is frequently necessary for decision making. We present a statistical test which determine whether one variables is significantly more dependent on a first target variable or a second.Finally, a novel method for structure discovery in a graphical model is proposed. Making use of a result that zeros of a precision matrix can encode conditional independencies, we develop a test that estimates and bounds an entry of the precision matrix. Methods for structure discovery in the literature typically make restrictive distributional (e.g. Gaussian) or sparsity assumptions that may not apply to a data sample of interest. Consequently, we derive a new test that makes use of results for U-statistics and applies them to the covariance matrix, which then implies a bound on the precision matrix.
|
3 |
Estimation adaptative de l'intensité de certains processus ponctuels par sélection de modèle.Reynaud-Bouret, Patricia 27 June 2002 (has links) (PDF)
L'objet de cette thèse est d'adapter des techniques<br />de sélection de modèle au cadre particulier de l'estimation d'intensité de<br />processus ponctuels. Plus précisément, nous voulons montrer que les<br />estimateurs par projection pénalisés de l'intensité sont adaptatifs soit dans<br />une famille d'estimateurs par projection, soit pour le risque minimax. Nous<br />nous sommes restreints à deux cas particuliers : les processus de Poisson<br />inhomogènes et les processus de comptage à intensité<br />multiplicative d'Aalen.<br />Dans les deux cas, nous voulons trouver une inégalité de type<br />oracle, qui garantit que les estimateurs par projection pénalisés ont un risque<br />du même ordre de grandeur que le meilleur estimateur par projection pour une<br />famille de modèles donnés. La clé qui permet de prouver des inégalités de<br />type oracle est le phénomène de concentration de la mesure ou plus précisément<br />la connaissance d'inégalités exponentielles, qui permettent de contrôler en<br />probabilité les déviations de statistiques de type khi-deux au dessus de leur<br />moyenne. Nous avons prouvé deux types d'inégalités de concentration. La<br />première n'est valable que pour les processus de Poisson. Elle est comparable<br />en terme d'ordre de grandeur à l'inégalité de M. Talagrand pour les suprema de<br />processus empiriques. La deuxième est plus grossière mais elle est valable<br />pour des processus de comptage beaucoup plus généraux.<br />Cette dernière inégalité met en oeuvre des techniques de<br />martingales dont nous nous sommes inspirés pour prouver des inégalités de<br />concentration pour des U-statistiques dégénérées d'ordre 2 ainsi que pour des<br />intégrales doubles par rapport à une mesure de Poisson recentrée.<br />Nous calculons aussi certaines bornes inférieures pour les<br />risques minimax et montrons que les estimateurs par projection pénalisés<br />atteignent ces vitesses.
|
4 |
Théorèmes limites fonctionnels pour des U-statistiques échantillonnéees par une marche aléatoire. Étude de modèles stochastiques de repliement des protéinesLadret, Véronique 02 July 2004 (has links) (PDF)
Cette thèse se décompose en deux parties indépendantes. Notre objectif dans la première partie est d'étudier le comportement asymptotique des $U$-statistiques, basées sur des noyaux d'ordre 2, échantillonnées par une marche aléatoire. Plus précisément, on se donne $(S_n)_(n \in \N)$ une marche aléatoire sur $\Z^d$, $d \geq 1$ et $(\xi_x)_(x \in \Z^(d))$ une collection de variables aléatoires indépendantes, identiquement distribuées, indépendante de $(S_n)_(n \in \N)$. On note $\mu$ la loi de $\xi_0$ et l'on désigne par $h : \R^2\ra \R$, une fonction mesurable, symétrique, telle que $h \in L^2(\mu\otimes\mu)$. On s'intéresse au comportement asymptotique de la suite de processus, $$ \cU_n(t)=\sum_(i,j=0)^([nt])h(\xi_(S_i), \xi_(S_j)), \quad t\in[0,1], \quad n=0,1,\ldots, $$ à valeurs dans $\cD([0,1])$, l'espace des fonctions c.à.l.à.g. définies sur $[0,1]$, muni de la topologie de Skorohod. Cabus et Guillotin ont obtenu la distribution asymptotique de ces objets, dans le cas où la marche aléatoire, $(S_n)_(n \in \N)$, est récurrente sur $\Z^2$, ainsi que dans le cas où elle est transiente sur $\Z^d$, pour $d\geq3$. Elles ont également conjecturé la forme de la distribution limite, dans le cas de la marche aléatoire simple, symétrique, sur $\Z$. Dans le cas où $\Sn$ appartient au domaine d'attraction d'une loi stable d'indice $1<\alpha\leq2$, nous prouvons deux théorèmes limites fonctionnels, décrivant le comportement asymptotique de $\(\cU_n, n=1,2,\ldots\)$. Nous démontrons ainsi, la conjecture de Cabus et Guillotin. Par ailleurs, nous donnons une nouvelle preuve de leurs résultats.\\ Dans une seconde partie, nous étudions le comportement asymptotique du temps d'atteinte de deux versions d'un algorithme d'évolution simplifié, modélisant le repliement d'une protéine : le $(1+1)$-EA sur le problème LeadingOnes. Pour chaque algorithme nous donnons une loi des grands nombres, un théorème central limite et nous comparons la performance des deux modèles.\\
|
5 |
Méthodes statistiques pour l'évaluation du risque alimentaireTressou, Jessica 09 December 2005 (has links) (PDF)
Les aliments peuvent être contaminés par certaines substances chimiques, qui, lorsqu'elles sont ingérées à des doses trop importantes, peuvent engendrer des problèmes de santé. Notre but est d'évaluer la probabilité que l'exposition au contaminant dépasse durablement une dose tolérable par l'organisme que nous appelons risque. La modélisation de la queue de distribution par des lois extrêmes permet de quantifier un risque très faible. Dans les autres cas, l'estimateur empirique du risque s'écrit comme une U-statistique généralisée, ce qui permet d'en dériver les propriétés asymptotiques. Des développements statistiques permettent d'intégrer à ce modèle la censure des données de contamination. Enfin, un modèle économétrique de décomposition de données ménage en données individuelles nous permet de proposer une nouvelle méthode de quantification du risque de long terme prenant en compte l'accumulation du contaminant et sa lente dégradation par l'organisme.
|
6 |
Inférence non-paramétrique pour des interactions poissoniennesSansonnet, Laure 14 June 2013 (has links) (PDF)
L'objet de cette thèse est d'étudier divers problèmes de statistique non-paramétrique dans le cadre d'un modèle d'interactions poissoniennes. De tels modèles sont, par exemple, utilisés en neurosciences pour analyser les interactions entre deux neurones au travers leur émission de potentiels d'action au cours de l'enregistrement de l'activité cérébrale ou encore en génomique pour étudier les distances favorisées ou évitées entre deux motifs le long du génome. Dans ce cadre, nous introduisons une fonction dite de reproduction qui permet de quantifier les positions préférentielles des motifs et qui peut être modélisée par l'intensité d'un processus de Poisson. Dans un premier temps, nous nous intéressons à l'estimation de cette fonction que l'on suppose très localisée. Nous proposons une procédure d'estimation adaptative par seuillage de coefficients d'ondelettes qui est optimale des points de vue oracle et minimax. Des simulations et une application en génomique sur des données réelles provenant de la bactérie E. coli nous permettent de montrer le bon comportement pratique de notre procédure. Puis, nous traitons les problèmes de test associés qui consistent à tester la nullité de la fonction de reproduction. Pour cela, nous construisons une procédure de test optimale du point de vue minimax sur des espaces de Besov faibles, qui a également montré ses performances du point de vue pratique. Enfin, nous prolongeons ces travaux par l'étude d'une version discrète en grande dimension du modèle précédent en proposant une procédure adaptative de type Lasso.
|
7 |
Algorithmes de poursuite stochastiques et inégalités de concentration empiriques pour l'apprentissage statistique / Stochastic pursuit algorithms and empirical concentration inequalities for machine learningPeel, Thomas 29 November 2013 (has links)
La première partie de cette thèse introduit de nouveaux algorithmes de décomposition parcimonieuse de signaux. Basés sur Matching Pursuit (MP) ils répondent au problème suivant : comment réduire le temps de calcul de l'étape de sélection de MP, souvent très coûteuse. En réponse, nous sous-échantillonnons le dictionnaire à chaque itération, en lignes et en colonnes. Nous montrons que cette approche fondée théoriquement affiche de bons résultats en pratique. Nous proposons ensuite un algorithme itératif de descente de gradient par blocs de coordonnées pour sélectionner des caractéristiques en classification multi-classes. Celui-ci s'appuie sur l'utilisation de codes correcteurs d'erreurs transformant le problème en un problème de représentation parcimonieuse simultanée de signaux. La deuxième partie expose de nouvelles inégalités de concentration empiriques de type Bernstein. En premier, elles concernent la théorie des U-statistiques et sont utilisées pour élaborer des bornes en généralisation dans le cadre d'algorithmes de ranking. Ces bornes tirent parti d'un estimateur de variance pour lequel nous proposons un algorithme de calcul efficace. Ensuite, nous présentons une version empirique de l'inégalité de type Bernstein proposée par Freedman [1975] pour les martingales. Ici encore, la force de notre borne réside dans l'introduction d'un estimateur de variance calculable à partir des données. Cela nous permet de proposer des bornes en généralisation pour l'ensemble des algorithmes d'apprentissage en ligne améliorant l'état de l'art et ouvrant la porte à une nouvelle famille d'algorithmes d'apprentissage tirant parti de cette information empirique. / The first part of this thesis introduces new algorithms for the sparse encoding of signals. Based on Matching Pursuit (MP) they focus on the following problem : how to reduce the computation time of the selection step of MP. As an answer, we sub-sample the dictionary in line and column at each iteration. We show that this theoretically grounded approach has good empirical performances. We then propose a bloc coordinate gradient descent algorithm for feature selection problems in the multiclass classification setting. Thanks to the use of error-correcting output codes, this task can be seen as a simultaneous sparse encoding of signals problem. The second part exposes new empirical Bernstein inequalities. Firstly, they concern the theory of the U-Statistics and are applied in order to design generalization bounds for ranking algorithms. These bounds take advantage of a variance estimator and we propose an efficient algorithm to compute it. Then, we present an empirical version of the Bernstein type inequality for martingales by Freedman [1975]. Again, the strength of our result lies in the variance estimator computable from the data. This allows us to propose generalization bounds for online learning algorithms which improve the state of the art and pave the way to a new family of learning algorithms taking advantage of this empirical information.
|
8 |
Statistiques multivariées pour l'analyse du risque alimentaire / Multivariate statistics for dietary risk analysisChautru, Emilie 06 September 2013 (has links)
Véritable carrefour de problématiques économiques, biologiques, sociologiques, culturelles et sanitaires, l’alimentation suscite de nombreuses polémiques. Dans un contexte où les échanges mondiaux facilitent le transport de denrées alimentaires produites dans des conditions environnementales diverses, où la consommation de masse encourage les stratégies visant à réduire les coûts et maximiser le volume de production (OGM, pesticides, etc.) il devient nécessaire de quantifier les risques sanitaires que de tels procédés engendrent. Notre intérêt se place ici sur l’étude de l’exposition chronique, de l’ordre de l’année, à un ensemble de contaminants dont la nocivité à long terme est d’ores et déjà établie. Les dangers et bénéfices de l’alimentation ne se restreignant pas à l’ingestion ou non de substances toxiques, nous ajoutons à nos objectifs l’étude de certains apports nutritionnels. Nos travaux se centrent ainsi autour de trois axes principaux. Dans un premier temps, nous nous intéressons à l'analyse statistique des très fortes expositions chroniques à une ou plusieurs substances chimiques, en nous basant principalement sur des résultats issus de la théorie des valeurs extrêmes. Nous adaptons ensuite des méthodes d'apprentissage statistique de type ensembles de volume minimum pour l'identification de paniers de consommation réalisant un compromis entre risque toxicologique et bénéfice nutritionnel. Enfin, nous étudions les propriétés asymptotiques d'un certain nombre d'estimateurs permettant d'évaluer les caractéristiques de l'exposition, qui prennent en compte le plan de sondage utilisé pour collecter les données. / At a crossroads of economical, sociological, cultural and sanitary issues, dietary analysis is of major importance for public health institutes. When international trade facilitates the transportation of foodstuffs produced in very different environmental conditions, when conspicuous consumption encourages profitable strategies (GMO, pesticides, etc.), it is necessary to quantify the sanitary risks engendered by such economic behaviors. We are interested in the evaluation of chronic types of exposure (at a yearly scale) to food contaminants, the long-term toxicity of which is already well documented. Because dietary risk and benefit is not limited to the abuse or the avoidance of toxic substances, nutritional intakes are also considered. Our work is thus organized along three main lines of research. We first consider the statistical analysis of very high long-term types of exposure to one or more chemical elements present in the food, adopting approaches in keeping with extreme value theory. Then, we adapt classical techniques borrowed from the statistical learning field concerning minimum volume set estimation in order to identify dietary habits that realize a compromise between toxicological risk and nutritional benefit. Finally, we study the asymptotic properties of a number of statistics that can assess the characteristics of the distribution of individual exposure, which take into account the possible survey scheme from which the data originate.
|
9 |
Inférence non-paramétrique pour des interactions poissoniennes / Adaptive nonparametric inference for Poissonian interactionsSansonnet, Laure 14 June 2013 (has links)
L'objet de cette thèse est d'étudier divers problèmes de statistique non-paramétrique dans le cadre d'un modèle d'interactions poissoniennes. De tels modèles sont, par exemple, utilisés en neurosciences pour analyser les interactions entre deux neurones au travers leur émission de potentiels d'action au cours de l'enregistrement de l'activité cérébrale ou encore en génomique pour étudier les distances favorisées ou évitées entre deux motifs le long du génome. Dans ce cadre, nous introduisons une fonction dite de reproduction qui permet de quantifier les positions préférentielles des motifs et qui peut être modélisée par l'intensité d'un processus de Poisson. Dans un premier temps, nous nous intéressons à l'estimation de cette fonction que l'on suppose très localisée. Nous proposons une procédure d'estimation adaptative par seuillage de coefficients d'ondelettes qui est optimale des points de vue oracle et minimax. Des simulations et une application en génomique sur des données réelles provenant de la bactérie E. coli nous permettent de montrer le bon comportement pratique de notre procédure. Puis, nous traitons les problèmes de test associés qui consistent à tester la nullité de la fonction de reproduction. Pour cela, nous construisons une procédure de test optimale du point de vue minimax sur des espaces de Besov faibles, qui a également montré ses performances du point de vue pratique. Enfin, nous prolongeons ces travaux par l'étude d'une version discrète en grande dimension du modèle précédent en proposant une procédure adaptative de type Lasso. / The subject of this thesis is the study of some adaptive nonparametric statistical problems in the framework of a Poisson interactions model. Such models are used, for instance, in neurosciences to analyze interactions between two neurons through their spikes emission during the recording of the brain activity or in genomics to study favored or avoided distances between two motifs along a genome. In this setting, we naturally introduce a so-called reproduction function that allows to quantify the favored positions of the motifs and which is considered as the intensity of a Poisson process. Our first interest is the estimation of this function assumed to be well localized. We propose a data-driven wavelet thresholding estimation procedure that is optimal from oracle and minimax points of view. Simulations and an application to genomic data from the bacterium E. coli allow us to show the good practical behavior of our procedure. Then, we deal with associated problems on tests which consist in testing the nullity of the reproduction function. For this purpose, we build a minimax optimal testing procedure on weak Besov spaces and we provide some simulations showing good practical performances of our procedure. Finally, we extend this work with the study of a high-dimensional discrete setting of our previous model by proposing an adaptive Lasso-type procedure.
|
10 |
Tests d’indépendance par bootstrap et permutation : étude asymptotique et non-asymptotique. Application en neurosciences / Tests of independence by bootstrap and permutation : an asymptotic and non-asymptotic study. Application to neurosciences.Albert, Mélisande 16 November 2015 (has links)
Premièrement, nous construisons de tels tests basés sur des approches par bootstrap ou par permutation, et étudions leurs propriétés asymptotiques dans un cadre de processus ponctuels, à travers l'étude du comportement asymptotique des lois conditionnelles des statistiques de test bootstrappée et permutée, sous l'hypothèse nulle ainsi que toute alternative. Nous les validons en pratique par simulation et les comparons à des méthodes classiques en neurosciences. Ensuite, nous nous concentrons sur les tests par permutation, connus pour contrôler non-asymptotiquement leur niveau. Les p-valeurs basées sur la notion de coïncidences avec délai, sont implémentées dans une procédure de tests multiples, appelée méthode Permutation Unitary Events, pour détecter les synchronisations entre deux neurones. Nous validons la méthode par simulation avant de l'appliquer à de vraies données. Deuxièmement, nous étudions les propriétés non-asymptotiques des tests par permutation en termes de vitesse de séparation uniforme. Nous construisons une procédure de tests agrégés, basée sur du seuillage par ondelettes dans un cadre de variables aléatoires à densité. Nous déduisons d'une inégalité fondamentale de Talagrand, une nouvelle inégalité de concentration de type Bernstein pour des sommes permutées aléatoirement qui nous permet de majorer la vitesse de séparation uniforme sur des espaces de Besov faibles et d'en déduire que cette procédure semble être optimale et adaptative au sens du minimax. / On the one hand, we construct such tests based on bootstrap and permutation approaches. Their asymptotic performance are studied in a point process framework through the analysis of the asymptotic behavior of the conditional distributions of both bootstrapped and permuted test statistics, under the null hypothesis as well as under any alternative. A simulation study is performed verifying the usability of these tests in practice, and comparing them to existing classical methods in Neuroscience. We then focus on the permutation tests, well known for their non-asymptotic level properties. Their p-values, based on the delayed coincidence count, are implemented in a multiple testing procedure, called Permutation Unitary Events method, to detect the synchronization occurrences between two neurons. The practical validity of the method is verified on a simulation study before being applied on real data. On the other hand, the non-asymptotic performances of the permutation tests are studied in terms of uniform separation rates. A new aggregated procedure based on a wavelet thresholding method is developed in the density framework. Based on Talagrand's fundamental inequalities, we provide a new Bernstein-type concentration inequality for randomly permuted sums. In particular, it allows us to upper bound the uniform separation rate of the aggregated procedure over weak Besov spaces and deduce that this procedure seems to be optimal and adaptive in the minimax sens.
|
Page generated in 0.0719 seconds