Global ETD Search

81	Statistiques de scan : théorie et application à l'épidémiologie / Scan statistics : theory and application to epidemiology Genin, Mickaël 03 December 2013 (has links) La notion de cluster désigne l'agrégation dans le temps et/ou l'espace d'évènements. Dans de nombreux domaines, les experts observent certaines agrégations d'évènements et la question se pose de savoir si ces agrégations peuvent être considérées comme normales (le fruit du hasard) ou non. D'un point de vue probabiliste, la normalité peut être décrite par une hypothèse nulle de répartition aléatoire des évènements. La détection de clusters d'évènements est un domaine de la statistique qui s'est particulièrement étendu au cours des dernières décennies. En premier lieu, la communauté scientifique s'est attachée à développer des méthodes dans le cadre unidimensionnel (ex : le temps) puis, par la suite, a étendu ces méthodes au cas multidimensionnel, et notamment bidimensionnel (l'espace). Parmi l'ensemble des méthodes de détection de clusters d'évènements, trois grands types de tests peuvent être distingués. Le premier concerne les tests globaux qui permettent de détecter une tendance globale à l'agrégation, sans pour autant localiser les clusters éventuels. Le deuxième type correspond aux tests focalisés qui sont utilisés lorsque des connaissances a priori permettent de définir un point source (date ou localisation spatiale) et de tester l'agrégation autour de ce dernier. Le troisième type englobe les tests de détection de cluster (ou sans point source défini) qui permettent la localisation, sans connaissance a priori, de clusters d'évènements et le test de leur significativité statistique. Au sein de cette thèse, nous nous sommes focalisés sur cette dernière catégorie et plus particulièrement aux méthodes basées sur les statistiques de scan (ou de balayage). Ces méthodes sont apparues au début des années 1960 et permettent de détecter des clusters d'évènements et de déterminer leur aspect "normal" (le fruit du hasard) ou "anormal". L'étape de détection est réalisée par le balayage (scan) par une fenêtre, dite fenêtre de scan, du domaine d'étude (discret ou continu) dans lequel sont observés les évènements (ex: le temps, l'espace,…). Cette phase de détection conduit à un ensemble de fenêtres définissant chacune un cluster potentiel. Une statistique de scan est une variable aléatoire définie comme la fenêtre comportant le nombre maximum d'évènements observés. Les statistiques de scan sont utilisées comme statistique de test pour vérifier l'indépendance et l'appartenance à une distribution donnée des observations, contre une hypothèse alternative privilégiant l'existence de cluster au sein de la région étudiée. Par ailleurs, la principale difficulté réside dans la détermination de la distribution, sous l'hypothèse nulle, de la statistique de scan. En effet, puisqu'elle est définie comme le maximum d'une suite de variables aléatoires dépendantes, la dépendance étant due au recouvrement des différentes fenêtres de scan, il n'existe que dans de très rares cas de figure des solutions explicites. Aussi, un pan de la littérature est axé sur le développement de méthodes (formules exactes et surtout approximations) permettant de déterminer la distribution des statistiques de scan. Par ailleurs, dans le cadre bidimensionnel, la fenêtre de scan peut prendre différentes formes géométriques (rectangulaire, circulaire,…) qui pourraient avoir une influence sur l'approximation de la distribution de la statistique de scan. Cependant, à notre connaissance, aucune étude n'a évalué cette influence. Dans le cadre spatial, les statistiques de scan spatiales développées par M. Kulldorff s'imposent comme étant, de loin, les méthodes les plus utilisées par la communauté scientifique. Le principe de ces méthodes résident dans le fait de scanner le domaine d'étude avec des fenêtres de forme circulaire et de sélectionner le cluster le plus probable comme celui maximisant un test de rapport de vraisemblance. [...] / The concept of cluster means the aggregation of events in time and / or space. In many areas, experts observe certain aggregations of events and the question arises whether these aggregations can be considered normal (by chance) or not. From a probabilistic point of view, normality can be described by a null hypothesis of random distribution of events.The detection of clusters of events is an area of statistics that has particularly spread over the past decades. First, the scientific community has focused on developing methods for the one-dimensional framework (eg time) and then subsequently extended these methods to the multidimensional case, especially two-dimensional (space). Of all the methods for detecting clusters of events, three major types of tests can be distinguished. The first type concerns global tests that detect an overall tendency to aggregation, without locating any clusters. The second type corresponds to the focused tests that are used when a priori knowledge is used to define a point source (date or spatial location) and to test the aggregation around it. The third type includes the cluster detection tests that allow localization, without a priori, cluster of events and test their statistical significance. In this thesis, we focused on the latter category, especially to methods based on scan statistics.These methods have emerged in the early 1960s and can detect clusters of events and determine their \"normal" appearance (coincidence) or "abnormal". The detection step is performed by scanning through a window, namely scanning window, the studied area (discrete or continuous, time, space), in which the events are observed. This detection step leads to a set of windows, each defining a potential cluster. A scan statistic is a random variable defined as the window with the maximum number of events observed.Scan statistics are used as a test statistic to check the independence and belonging to a given distribution of observations, against an alternative hypothesis supporting the existence of cluster within the studied region. Moreover, the main difficulty lies in determining the distribution of scan statistics under the null hypothesis. Indeed, since it is defined as the maximum of a sequence of dependent random variables, the dependence is due to the recovery of different windows scan, it exists only in very rare cases explicit solutions. Also, a piece of literature is focused on the development of methods (exact formulas and approximations) to determine the distribution of scan statistics. Moreover, in the two-dimensional framework, the scanning window can take various geometric shapes (rectangular, circular, ...) that could have an influence on the approximation of the distribution of the scan statistic. However, to our knowledge, no study has evaluated this influence. In the spatial context, the spatial scan statistics developed by M. Kulldorff are the most commonly used methods for spatial cluster detection. The principle of these methods lies in scanning the studied area with circular windows and selecting the most likely cluster maximizing a likelihood ratio test statistic. Statistical inference of the latter is achieved through Monte Carlo simulations. However, in the case of huge databases and / or when important accuracy of the critical probability associated with the detected cluster is required, Monte Carlo simulations are extremely time-consuming.First , we evaluated the influence of the scanning window shape on the distribution of two dimensional discrete scan statistics. A simulation study performed with squared, rectangular and discrete circle scanning windows has highlighted the fact that the distributions of the associated scan statistics are very close each to other but significantly different. The power of the scan statistics is related to the shape of the scanning window and that of the existing cluster under alternative hypothesis through out a simulation study. [...] Statistiques de Scan Scan statistics
82	Modélisation de la dépendance pour des statistiques d'ordre et estimation non-paramétrique. / Modelling the dependence of order statistics and nonparametric estimation. Fischer, Richard 30 September 2016 (has links) Dans cette thèse, on considère la modélisation de la loi jointe des statistiques d'ordre, c.à.d. des vecteurs aléatoires avec des composantes ordonnées presque sûrement. La première partie est dédiée à la modélisation probabiliste des statistiques d'ordre d'entropie maximale à marginales fixées. Les marginales étant fixées, la caractérisation de la loi jointe revient à considérer la copule associée. Dans le Chapitre 2, on présente un résultat auxiliaire sur les copules d'entropie maximale à diagonale fixée. Une condition nécessaire et suffisante est donnée pour l'existence d'une telle copule, ainsi qu'une formule explicite de sa densité et de son entropie. La solution du problème de maximisation d'entropie pour les statistiques d'ordre à marginales fixées est présentée dans le Chapitre 3. On donne des formules explicites pour sa copule et sa densité jointe. On applique le modèle obtenu pour modéliser des paramètres physiques dans le Chapitre 4.Dans la deuxième partie de la thèse, on étudie le problème d'estimation non-paramétrique des densités d'entropie maximale des statistiques d'ordre en distance de Kullback-Leibler. Le chapitre 5 décrit une méthode d'agrégation pour des densités de probabilité et des densités spectrales, basée sur une combinaison convexe de ses logarithmes, et montre des bornes optimales non-asymptotiques en déviation. Dans le Chapitre 6, on propose une méthode adaptative issue d'un modèle exponentiel log-additif pour estimer les densités considérées, et on démontre qu'elle atteint les vitesses connues minimax. L'application de cette méthode pour estimer des dimensions des défauts est présentée dans le Chapitre 7 / In this thesis we consider the modelling of the joint distribution of order statistics, i.e. random vectors with almost surely ordered components. The first part is dedicated to the probabilistic modelling of order statistics of maximal entropy with marginal constraints. Given the marginal constraints, the characterization of the joint distribution can be given by the associated copula. Chapter 2 presents an auxiliary result giving the maximum entropy copula with a fixed diagonal section. We give a necessary and sufficient condition for its existence, and derive an explicit formula for its density and entropy. Chapter 3 provides the solution for the maximum entropy problem for order statistics with marginal constraints by identifying the copula of the maximum entropy distribution. We give explicit formulas for the copula and the joint density. An application for modelling physical parameters is given in Chapter 4.In the second part of the thesis, we consider the problem of nonparametric estimation of maximum entropy densities of order statistics in Kullback-Leibler distance. Chapter 5 presents an aggregation method for probability density and spectral density estimation, based on the convex combination of the logarithms of these functions, and gives non-asymptotic bounds on the aggregation rate. In Chapter 6, we propose an adaptive estimation method based on a log-additive exponential model to estimate maximum entropy densities of order statistics which achieves the known minimax convergence rates. The method is applied to estimating flaw dimensions in Chapter 7 Copule Statistics d'ordre Diagonale Estimation non-Paramétrique Entropie Agrégation Copula Order statistics Diagonal Nonparametric estimation Entropy Aggregation
83	Statistique de potentiels d'action et distributions de Gibbs dans les réseaux de neurones / Neuronal networks, spike trains statistics and Gibbs distributions Cofré, Rodrigo 05 November 2014 (has links) Les neurones sensoriels réagissent à des stimuli externes en émettant des séquences de potentiels d’action (“spikes”). Ces spikes transmettent collectivement de l’information sur le stimulus en formant des motifs spatio-temporels qui constituent le code neural. On observe expérimentalement que ces motifs se produisent de façon irrégulière, mais avec une structure qui peut être mise en évidence par l’utilisation de descriptions probabilistes et de méthodes statistiques. Cependant, la caractérisation statistique des données expérimentales présente plusieurs contraintes majeures: en dehors de celles qui sont inhérentes aux statistiques empiriques comme la taille de l’échantillonnage, ‘le’ modèle statistique sous-jacent est inconnu. Dans cette thèse, nous abordons le problème d’un point de vue complémentaire à l’approche expérimentale. Nous nous intéressons à des modèles neuro-mimétiques permettant d’étudier la statistique collective des potentiels d’action et la façon dont elle dépend de l’architecture et l’histoire du réseau ainsi que du stimulus. Nous considérons tout d’abord un modèle de type Intègre-et-Tire à conductance incluant synapses électriques et chimiques. Nous montrons que la statistique des potentiels d’action est caractérisée par une distribution non stationnaire et de mémoire infinie, compatible avec les probabilités conditionnelles (left interval-specification), qui est non-nulle et continue, donc une distribution de Gibbs. Nous présentons ensuite une méthode qui permet d’unifier les modèles dits d’entropie maximale spatio-temporelle (dont la mesure invariante est une distribution de Gibbs dans le sens de Bowen) et les modèles neuro-mimétiques, en fou / Sensory neurons respond to external stimulus using sequences of action potentials (“spikes”). They convey collectively to the brain information about the stimulus using spatio-temporal patterns of spikes (spike trains), that constitute a “neural code”. Since spikes patterns occur irregularly (yet highly structured) both within and over repeated trials, it is reasonable to characterize them using statistical methods and probabilistic descriptions. However, the statistical characterization of experimental data presents several major constraints: apart from those inherent to empirical statistics like finite size sampling, ‘the’ underlying statistical model is unknown. In this thesis we adopt a complementary approach to experiments. We consider neuromimetic models allowing the study of collective spike trains statistics and how it depends on network architecture and history, as well as on the stimulus. First, we consider a conductance-based Integrate-and-Fire model with chemical and electric synapses. We show that the spike train statistics is characterized by non-stationary, infinite memory, distribution consistent with conditional probabilities (Left interval specifications), which is continuous and non null, thus a Gibbs distribution. Then, we present a novel method that allows us to unify spatio-temporal Maximum Entropy models (whose invariant measure are Gibbs distributions in the Bowen sense) and neuro-mimetic models, providing a solid ground towards biophysical explanation of spatio-temporal correlations observed in experimental data. Finally, using these tools, we discuss the stimulus response of retinal ganglion cells, and the possible generalization of the co Statistique de potentiels d'action Distributions de Gibbs Réseaux de neurones Neuronal Networks Spike trains Gibbs distributions
84	Approximations for multidimensional discrete scan statistics / Approximations pour les statistiques de scan discrètes multidimensionnelles Amărioarei, Alexandru 15 September 2014 (has links) Dans cette thèse nous obtenons des approximations et les erreurs associées pour la distribution de la statistique de scan discrète multi-dimensionnelle. La statistique de scan est vue comme le maximum d'une suite de variables aléatoires stationnaires 1-dépendante. Dans ce cadre, nous présentons un nouveau résultat pour l'approximation de la distribution de l'extremum d'une suite de variables aléatoire stationnaire 1-dépendante, avec des conditions d'application plus larges et des erreurs d'approximations plus petites par rapport aux résultats existants en littérature. Ce résultat est utilisé ensuite pour l'approximation de la distribution de la statistique de scan. L'intérêt de cette approche par rapport aux techniques existantes en littérature est du à la précision d'une erreur d'approximation, d'une part, et de son applicabilité qui ne dépend pas de la distribution du champ aléatoire sous-adjacent aux données, d'autre part.Les modèles considérés dans ce travail sont le modèle i.i.d et le modèle de dépendance de type block-factor. Pour la modélisation i.i.d. les résultats sont détaillés pour la statistique de scan uni, bi et tri-dimensionnelle. Un algorithme de simulation de type "importance sampling" a été introduit pour le calcul effectif des approximations et des erreurs associées. Des études de simulations démontrent l'efficacité des résultats obtenus. La comparaison avec d'autres méthodes existantes est réalisée. La dépendance de type block-factor est introduite comme une alternative à la dépendance de type Markov. La méthodologie développée traditionnellement dans le cas i.i.d. est étendue à ce type de dépendance. / In this thesis, we derive accurate approximations and error bounds for the probability distribution of the multidimensional discrete scan statistics. We start by improving some existing results concerning the estimation of the distribution of extremes of 1-dependent stationary sequences of random variables, both in terms of range of applicability and sharpness of the error bound. These estimates play the key role in the approximation process of the multidimensional discrete scan statistics distribution. The presented methodology has two main advantages over the existing ones found in the literature: first, beside the approximation formula, an error bound is also established and second, the approximation does not depend on the common distribution of the observations. For the underlying random field under which the scan process is evaluated, we consider two models: the classical model, of independent and identically distributed observations and a dependent framework, where the observations are generated by a block-factor. In the i.i.d. case, in order to illustrate the accuracy of our results, we consider the particular settings of one, two and three dimensions. A simulation study is conducted where we compare our estimate with other approximations and inequalities derived in the literature. The numerical values are efficiently obtained via an importance sampling algorithm discussed in detail in the text. Finally, we consider a block-factor model for the underlying random field, which consists of dependent data and we show how to extend the approximation methodology to this case. Several examples in one and two dimensions are investigated. Statistiques de scan Dépendance de type block factor 519.56
85	Statistiques spectrales d'opérateurs de Schrödinger aléatoires unidimensionnels / Spectral statistics for one-dimensional random Schrödinger operators Shirley, Christopher 27 October 2014 (has links) Dans cette thèse, nous allons prouver des estimations de décorrelation des valeurs propres pour plusieurs modèles d'opérateurs de Schrödinger aléatoires en dimension un, dans le régime localisé, tant que nous avons des estimations de Wegner. Ceci permet l'étude des statistiques spectrales.Nous commencerons donc par présenter les hypothèses sur lesquelles nous nous appuyons et les différents modèles considérés.Nous étudierons ensuite les estimations de Minami, qui peuvent être vues comme des estimations de décorrélation des valeurs propres proches. Nous montrerons qu'en dimension un, elles sont conséquences des estimations de Wegner et de l'hypothèse de localisation. Les estimations prouvées ici ont un domaine de validité plus restreint que les estimations de Minami classiques, mais sont suffisantes pour notre étude.Nous étudierons ensuite les estimations de décorrélation des valeurs propres éloignées pour les différents modèles présentés. Nous montrerons qu'elles sont conséquences des estimations de Minami, des estimations de Wegner et de l'hypothèse de localisation. Les preuves données seront différentes selon les modèles étudiés.Enfin, nous montrerons que ces résultats permettent d'étudier les statistiques spectrales, dans le régime localisé. Par exemple, les estimations de décorrélation permettent de montrer que les statistiques locales des niveaux d'énergies, prises à deux énergies différentes, convergent faiblement vers deux processus de Poisson indépendants sur $\R$ d'intensité la mesure de Lebesgue. / In this thesis, we will prove decorrelation estimates of eigenvalues for several models of random Schrödinger operators in dimension one, in the localized regime, provided we have Wegner estimates. This will allow us to study spectral statistics.We will begin with the presentation of the hypotheses needed in our proofs and the models under consideration.We will continue with the study of the Minami estimates, which can be seen as decorrelation estimates of close eigenvalues. We will show that, in dimension one and in the localized regime, they are the consequences of the Wegner estimates. The results proven here have a area of validity smaller than the usual Minami estimates, but it will suffice for our study.Next, we will study the decorrelation estimates of distant eigenvalues for the models under consideration. We will show that they are consequences of the Minami estimates and the Wegner estimates, in the localized regime. The proofs will be different from one model to another.Eventually, we will show that these results allow us to study spectral statistics in the localized regime. For instance, the decorrelation estimates will be used to prove that the local energy level statistics, taken at two distincts energy levels, converge weakly to two independent Poisson processes on $\R$ with intensity the Lebesgue measure. Opérateurs de Schrödinger aléatoires Estimations de Minami Estimations de décorrélation Statistiques spectrales Random Schrödinger operators Minami estimates 519.5
86	Application de la théorie des matrices aléatoires pour les statistiques en grande dimension / Application of Random Matrix Theory to High Dimensional Statistics Bun, Joël 06 September 2016 (has links) De nos jours, il est de plus en plus fréquent de travailler sur des bases de données de très grandes tailles dans plein de domaines différents. Cela ouvre la voie à de nouvelles possibilités d'exploitation ou d'exploration de l'information, et de nombreuses technologies numériques ont été créées récemment dans cette optique. D'un point de vue théorique, ce problème nous contraint à revoir notre manière d'analyser et de comprendre les données enregistrées. En effet, dans cet univers communément appelé « Big Data », un bon nombre de méthodes traditionnelles d'inférence statistique multivariée deviennent inadaptées. Le but de cette thèse est donc de mieux comprendre ce phénomène, appelé fléau (ou malédiction) de la dimension, et ensuite de proposer différents outils statistiques exploitant explicitement la dimension du problème et permettant d'extraire des informations fiables des données. Pour cela, nous nous intéresserons beaucoup aux vecteurs propres de matrices symétriques. Nous verrons qu’il est possible d’extraire de l'information présentant un certain degré d’universalité. En particulier, cela nous permettra de construire des estimateurs optimaux, observables, et cohérents avec le régime de grande dimension. / Nowadays, it is easy to get a lot ofquantitative or qualitative data in a lot ofdifferent fields. This access to new databrought new challenges about data processingand there are now many different numericaltools to exploit very large database. In atheoretical standpoint, this framework appealsfor new or refined results to deal with thisamount of data. Indeed, it appears that mostresults of classical multivariate statisticsbecome inaccurate in this era of “Big Data”.The aim of this thesis is twofold: the first one isto understand theoretically this so-called curseof dimensionality that describes phenomenawhich arise in high-dimensional space.Then, we shall see how we can use these toolsto extract signals that are consistent with thedimension of the problem. We shall study thestatistics of the eigenvalues and especially theeigenvectors of large symmetrical matrices. Wewill highlight that we can extract someuniversal properties of these eigenvectors andthat will help us to construct estimators that areoptimal, observable and consistent with thehigh dimensional framework. Matrices aléatoires Statistiques en grande dimension Estimation Décomposition Spectrale Random matrices High dimensional statistics Estimation Spectral decomposition
87	Toward Automatic Fact-Checking of Statistic Claims / Vers une vérification automatique des affirmations statistiques Cao, Tien Duc 26 September 2019 (has links) La thèse vise à explorer des modèles et algorithmes d'extraction de connaissance et d'interconnexion de bases de données hétérogènes, appliquée à la gestion de contenus tels que rencontrés fréquemment dans le quotidien des journalistes. Le travail se déroulera dans le cadre du projet ANR ContentCheck (2016-2019) qui fournit le financement et dans le cadre duquel nous collaborons aussi avec l'équipe "Les Décodeurs" (journalistes spécialisés dans le fact-checking) du journal Le Monde.La démarche scientifique de la thèse se décompose comme suit:1. Identifier les technologies et domaines de gestion de contenu (texte, données, connaissances) intervenant de façon recurrente (ou dont le besoin est ressenti comme important) dans l'activité des journalistes.Il est par exemple déjà clair que ceux-ci ont l'habitude d'utiliser "en interne" quelques bases de données construites par les journalistes eux-mêmes ; ils disposent aussi d'outils internes (à la rédaction) de recherche par mots-clé ; cependant, ils souhaiterait augmenter leur capacité d'indexation sémantique...Parmi ces problèmes, identifier ceux pour lesquels des solutions techniques (informatiques) sont connues, et le cas échéant mis en oeuvre dans des systèmes existants.2. S'attaquer aux problèmes ouverts (sur le plan de la recherche), pour lesquels des réponses satisfaisantes manquent, liés à la modélisation et à l'algorithmique efficace pour des contenus textuels, sémantiques, et des données, dans un contexte journalistique. / Digital content is increasingly produced nowadays in a variety of media such as news and social network sites, personal Web sites, blogs etc. In particular, a large and dynamic part of such content is related to media-worthy events, whether of general interest (e.g., the war in Syria) or of specialized interest to a sub-community of users (e.g., sport events or genetically modified organisms). While such content is primarily meant for the human users (readers), interest is growing in its automatic analysis, understanding and exploitation. Within the ANR project ContentCheck, we are interested in developing textual and semantic tools for analyzing content shared through digital media. The proposed PhD project takes place within this contract, and will be developed based on the interactions with our partner from Le Monde. The PhD project aims at developing algorithms and tools for :Classifying and annotating mixed content (from articles, structured databases, social media etc.) based on an existing set of topics (or ontology) ;Information and relation extraction from a text which may comprise a statement to be fact-checked, with a particular focus on capturing the time dimension ; a sample statement is for instance « VAT on iron in France was the highest in Europe in 2015 ».Building structured queries from extracted information and relations, to be evaluated against reference databases used as trusted information against which facts can be checked. Vérification des faits RDF Natural Language Processing Fact-checking RDF 621.39
88	Statistique des processus stables et des processus à longue mémoire / Statistics of stable processes and long memory processes Robet, Caroline 20 September 2019 (has links) Ce manuscrit, séparé en deux parties, débute par l’étude des lois et processus -stables et des processus multistables. Après avoir construit et étudié un estimateur basé sur les log-moments de lois stables, on améliore ses performances en le combinant avec l’estimateur de Koutrouvelis. Puis, nous donnons une méthode approchée afin de simuler rapidement un processus multistable et nous construisons un estimateur de la fonction d’intensité de ce processus à l’aide du rapport de moments empiriques. La deuxième partie est consacrée à l’étude des processus stationnaires du second ordre à longue mémoire en temps continu. Ce processus est échantillonné à des instants d’observations aléatoires tels que les inter-arrivées soient i.i.d. Le comportement du processus échantillonné est alors étudié dans les domaines temporel et fréquentiel. Une étude plus précise dans le cas d’une fonction d’autocovariance à variation régulière permet de montrer l’évolution de la mémoire après échantillonnage. De plus, pour un processus initialement gaussien, on étudie le périodogramme, les sommes partielles et la convergence de l’estimateur local Whittle pour le paramètre de mémoire. / This manuscript is divided into two parts. The first one is devoted to the study of - stable distributions and processes and multistable processes. After having built and studied an estimator based on log-moments of the stable distribution, an improvement is obtained by combining it with the Koutrouvelis estimator. Then, we give a nonexact method to simulate efficiently a multistable process, and we construct an estimator of its intensity function using an empirical moments ratio. The second part is devoted to the study of continuous time second order stationary processes with long memory. This process is sampled at random observation times such that inter-arrivals are i.i.d. The behaviour of the sampled process is then studied in time and frequency domains. For autocovariance functions with regular variation, we study the evolution of the memory after sampling. In addition, for an initially Gaussian process, the periodogram, partial sums and convergence of the local Whittle estimator for the memory parameter are studied. Stationnarité du second ordre Log-moments
89	Consistance des statistiques dans les espaces quotients de dimension infinie / Consistency of statistics in infinite dimensional quotient spaces Devilliers, Loïc 20 November 2017 (has links) En anatomie computationnelle, on suppose que les formes d'organes sont issues des déformations d'un template commun. Les données peuvent être des images ou des surfaces d'organes, les déformations peuvent être des difféomorphismes. Pour estimer le template, on utilise souvent un algorithme appelé «max-max» qui minimise parmi tous les candidats, la somme des carrées des distances après recalage entre les données et le template candidat. Le recalage est l'étape de l'algorithme qui trouve la meilleure déformation pour passer d'une forme à une autre. Le but de cette thèse est d'étudier cet algorithme max-max d'un point de vue mathématique. En particulier, on prouve que cet algorithme est inconsistant à cause du bruit. Cela signifie que même avec un nombre infini de données et avec un algorithme de minimisation parfait, on estime le template original avec une erreur non nulle. Pour prouver l'inconsistance, on formalise l'estimation du template. On suppose que les déformations sont des éléments aléatoires d'un groupe qui agit sur l'espace des observations. L'algorithme étudié est interprété comme le calcul de la moyenne de Fréchet dans l'espace des observations quotienté par le groupe des déformations. Dans cette thèse, on prouve que l'inconsistance est dû à la contraction de la distance quotient par rapport à la distance dans l'espace des observations. De plus, on obtient un équivalent de biais de consistance en fonction du niveau de bruit. Ainsi, l'inconsistance est inévitable quand le niveau de bruit est suffisamment grand. / In computational anatomy, organ shapes are assumed to be deformation of a common template. The data can be organ images but also organ surfaces, and the deformations are often assumed to be diffeomorphisms. In order to estimate the template, one often uses the max-max algorithm which minimizes, among all the prospective templates, the sum of the squared distance after registration between the data and a prospective template. Registration is here the step of the algorithm which finds the best deformation between two shapes. The goal of this thesis is to study this template estimation method from a mathematically point of view. We prove in particular that this algorithm is inconsistent due to the noise. This means that even with an infinite number of data, and with a perfect minimization algorithm, one estimates the original template with an error. In order to prove inconsistency, we formalize the template estimation: deformations are assumed to be random elements of a group which acts on the space of observations. Besides, the studied algorithm is interpreted as the computation of the Fréchet mean in the space of observations quotiented by the group of deformations. In this thesis, we prove that the inconsistency comes from the contraction of the distance in the quotient space with respect to the distance in the space of observations. Besides, we obtained a Taylor expansion of the consistency bias with respect to the noise level. As a consequence, the inconsistency is unavoidable when the noise level is high. Moyenne de Fréchet Espace quotient Estimation de template Frechet mean Quotient space Template estimation
90	Grandes déviations précises pour des statistiques de test / Sharp Large Deviations for some Test Statistics Truong, Thi Kim Tien 10 December 2018 (has links) Cette thèse concerne l’étude de grandes déviations précises pour deux statistiques de test:le coefficient de corrélation empirique de Pearson et la statistique de Moran.Les deux premiers chapitres sont consacrés à des rappels sur les grandes déviations précises et sur la méthode de Laplace qui seront utilisés par la suite. Par la suite, nous étudions les grandes déviations précises pour des coefficients de Pearson empiriques qui sont définis par:$r_n=\sum_{i=1}^n(X_i-\bar X_n)(Y_i-\bar Y_n)/\sqrt{\sum_{i=1}(X_i-\bar X_n)^2 \sum_{i=1}(Y_i-\bar Y_n)^2}$ ou, quand les espérances sont connues, $\tilde r_n=\sum_{i=1}^n(X_i-\mathbb E(X))(Y_i-\mathbb E(Y))/\sqrt{\sum_{i=1}(X_i-\mathbb E(X))^2 \sum_{i=1}(Y_i-\mathbb E(Y))^2} \, .$. Notre cadre est celui d’échantillons (Xi, Yi) ayant une distribution sphérique ou une distribution gaussienne. Dans chaque cas, le schéma de preuve suit celui de Bercu et al.Par la suite, nous considérons la statistique de Moran $T_n=\frac{1}{n}\sum_{k=1}^n\log\frac{X_i}{\bar X_n}+\gamma \, ,$o\`u $\gamma$, où γ est la constante d’ Euler. Enfin l’appendice est consacré aux preuves de résultats techniques. / This thesis focuses on the study of Sharp large deviations (SLD) for two test statistics:the Pearson’s empirical correlation coefficient and the Moran statistic.The two first chapters aim to recall general results on SLD principles and Laplace’s methodsused in the sequel. Then we study the SLD of empirical Pearson coefficients, name $r_n=\sum_{i=1}^n(X_i-\bar X_n)(Y_i-\bar Y_n)/\sqrt{\sum_{i=1}(X_i-\bar X_n)^2 \sum_{i=1}(Y_i-\bar Y_n)^2}$ and when the meansare known,$\tilde r_n=\sum_{i=1}^n(X_i-\mathbb E(X))(Y_i-\mathbb E(Y))/\sqrt{\sum_{i=1}(X_i-\mathbb E(X))^2 \sum_{i=1}(Y_i-\mathbb E(Y))^2} \, .$ .Our framework takes place in two cases of random sample (Xi, Yi): spherical distributionand Gaussian distribution. In each case, we follow the scheme of Bercu et al. Next, westate SLD for the Moran statistic $T_n=\frac{1}{n}\sum_{k=1}^n\log\frac{X_i}{\bar X_n}+\gamma \, ,$o\`u $\gamma$ , where γ is the Euler constant.Finally the appendix is devoted to some technical results. Grandes déviations précises Coefficient de correlation de Pearson Test de Moran Statistiques auto-normalisées Méthode de Laplace Sharp Large Deviations Pearson correlation coefficient Moran test Selfnormalized statistics Laplace’s method 519.5

Search results