• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 7
  • 1
  • Tagged with
  • 7
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Modèle linéaire généralisé hiérarchique Gamma-Poisson pour le contrôle de qualité en microbiologie / Poisson-Gamma hierarchical generalized linear model for quality control in microbiology

Loingeville, Florence 22 January 2016 (has links)
Dans cette thèse, nous proposons une méthode d'analyse de variance pour des données discrètes issues du contrôle de qualité en microbiologie. Nous étudions tout d'abord la méthode d'analyse de variance actuellement utilisée, ses avantages, inconvénients, et limites. Nous proposons une première modélisation du problème par un modèle linéaire à deux facteurs fixes imbriqués. Nous utilisons la méthode d'analyse de déviance pour développer des tests de significativité des facteurs, qui s'avèrent efficaces sur des données d'essais interlaboratoires en microbiologie. Nous présentons ensuite une modélisation à facteurs aléatoires. Le caractère aléatoire des facteurs permet de caractériser la surdispersion des résultats de dénombrement en microbiologie, ce qui constitue l'un des objectifs principaux de ce travail. Le modèle développé correspond à un Modèle Linéaire Généralisé Hiérarchique Gamma-Poisson à trois facteurs aléatoires. Nous proposons alors une méthode d'estimation des effets fixes et aléatoires, ainsi que des paramètres de dispersion associés aux facteurs. Nous présentons des applications pratiques de cette méthode à des données d'essais interlaboratoires en microbiologie, qui prouvent l’ajustement du modèle aux données réelles. Nous proposons également une méthode de test de la significativité des facteurs, ainsi qu'une nouvelle méthode d'évaluation de la performance analytique des laboratoires participants à un essai. Nous présentons enfin une distribution presque-exacte du produit de variables aléatoires indépendantes de loi Gamma Généralisées, permettant d’effectuer des tests de détection de résultats de dénombrement aberrants. / In this thesis, we propose an analysis of variance method for discrete data from quality control in microbiology. To identify the issues of this work, we start by studying the analysis of variance method currently used in microbiology, its benefits, drawbacks, and limits. We propose a first model to respond the problem, corresponding to a linear model with two nested fixed factors. We use the analyse of deviance method to develop significance tests, that proved to be efficient on data sets of proficiency testings in microbiology. We then introduce a new model involving random factors. The randomness of the factors allow to assess and to caracterize the overdispersion observed in results of counts from proficiency testings in microbiology, that is one of the main objectives of this work. The new model corresponds to a Gamma-Poisson Hierarchical Generalized Linear Model with three random factors. We propose a method based on this model to estimate dispersion parameters, fixed, and random effects. We show practical applications of this method to data sets of proficiency testings in microbiology, that prove the goodness of fit of the model to real data. We also develop significance tests of the random factors from this new model, and a new method to assess the performance of the laboratories taking part in a proficiency testing. We finally introduce a near-exact distribution for the product of independent generalized Gamma random variables, in order to characterize the intensity of the Poisson distribution of the model. This approximation, developped from a factorization of the characteristic function, is very precise and can be used to detect outliers.
2

Estimation de la moyenne et de la variance de l'abondance de populations en écologie à partir d'échantillons de petite taille

Vaudor, Lise 25 January 2011 (has links) (PDF)
En écologie comme dans bien d'autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d'inférence sont souvent mal adaptées à ces distributions, à moins de disposer d'échantillons de très grande taille. Il est donc nécessaire de s'interroger sur la validité des méthodes d'inférence, et de quantifier les erreurs d'estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d'abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d'une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 _ n _ 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l'estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d'estimation de la dispersion. L'erreur d'estimation est d'autant plus importante que le nombre d'individus observés est faible, et l'on peut, pour une population donnée, quantifier le gain en précision résultant de l'exclusion d'échantillons comprenant très peu d'individus. Nous avons ensuite comparé plusieurs méthodes de calcul d'intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d'estimation étaient prévisibles, à travers l'observation de statistiques simples des échantillons comme le nombre total d'individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d'échantillonnage à taille fixe, à une méthode séquentielle, où l'on échantillonne jusqu'à observer un nombre minimum d'individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l'échantillonnage séquentiel améliore l'estimation du paramètre de dispersion mais induit un biais dans l'estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d'estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d'estimations, et aboutit à des recommandations pratiques en termes de méthodes d'échantillonnage et d'estimation.
3

Méthodes statistiques pour la modélisation des facteurs influençant la distribution et l'abondance de populations : Application aux rapaces diurnes nichant en France

Le Rest, Kévin 19 December 2013 (has links) (PDF)
Face au déclin global de la biodiversité, de nombreux suivis de populations animales et végétales sont réalisés sur de grandes zones géographiques et durant une longue période afin de comprendre les facteurs déterminant la distribution, l'abondance et les tendances des populations. Ces suivis à larges échelles permettent de statuer quantitativement sur l'état des populations et de mettre en place des plans de gestion appropriés en accord avec les échelles biologiques. L'analyse statistique de ce type de données n'est cependant pas sans poser un certain nombre de problèmes. Classiquement, on utilise des modèles linéaires généralisés (GLM), formalisant les liens entre des variables supposées influentes (par exemple caractérisant l'environnement) et la variable d'intérêt (souvent la présence / absence de l'espèce ou des comptages). Il se pose alors un problème majeur qui concerne la manière de sélectionner ces variables influentes dans un contexte de données spatialisées. Cette thèse explore différentes solutions et propose une méthode facilement applicable, basée sur une validation croisée tenant compte des dépendances spatiales. La performance de la méthode est évaluée par des simulations et différents cas d'études dont des données de comptages présentant une variabilité plus forte qu'attendue (surdispersion). Un intérêt particulier est aussi porté aux méthodes de modélisation pour les données ayant un nombre de zéros plus important qu'attendu (inflation en zéro). La dernière partie de la thèse utilise ces enseignements méthodologiques pour modéliser la distribution, l'abondance et les tendances des rapaces diurnes en France.
4

Estimation de la moyenne et de la variance de l’abondance de populations en écologie à partir d’échantillons de petite taille / Estimating mean and variance of populations abundance in ecology with small-sized samples

Vaudor, Lise 25 January 2011 (has links)
En écologie comme dans bien d’autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d’inférence sont souvent mal adaptées à ces distributions, à moins de disposer d’échantillons de très grande taille. Il est donc nécessaire de s’interroger sur la validité des méthodes d’inférence, et de quantifier les erreurs d’estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d’abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d’une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 _ n _ 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l’estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d’estimation de la dispersion. L’erreur d’estimation est d’autant plus importante que le nombre d’individus observés est faible, et l’on peut, pour une population donnée, quantifier le gain en précision résultant de l’exclusion d’échantillons comprenant très peu d’individus. Nous avons ensuite comparé plusieurs méthodes de calcul d’intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d’estimation étaient prévisibles, à travers l’observation de statistiques simples des échantillons comme le nombre total d’individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d’échantillonnage à taille fixe, à une méthode séquentielle, où l’on échantillonne jusqu’à observer un nombre minimum d’individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l’échantillonnage séquentiel améliore l’estimation du paramètre de dispersion mais induit un biais dans l’estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d’estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d’estimations, et aboutit à des recommandations pratiques en termes de méthodes d’échantillonnage et d’estimation. / In ecology as well as in other scientific areas, count samples often comprise many zeros, and few high abundances. Their distribution is particularly overdispersed, and skewed. The most classical methods of inference are often ill-adapted to these distributions, unless sample size is really large. It is thus necessary to question the validity of inference methods, and to quantify estimation errors for such data. This work has been motivated by a fish abundance dataset, corresponding to punctual sampling by electrofishing. This dataset comprises more than 2000 samples : each sample corresponds to punctual abundances (considered to be independent and identically distributed) for one species and one fishing campaign. These samples are small-sized (generally, 20 _ n _ 50) and comprise many zeros (overall, 80% of counts are zeros). The fits of various classical distribution models were compared on these samples, and the negative binomial distribution was selected. Consequently, we dealt with the estimation of the parameters of this distribution : the parameter of mean m and parameter of dispersion q. First, we studied estimation problems for the dispersion. The estimation error is higher when few individuals are observed, and the gain in precision for a population, resulting from the exclusion of samples comprising very few individuals, can be quantified. We then compared several methods of interval estimation for the mean. Confidence intervals based on negative binomial likelihood are, by far, preferable to more classical ones such as Student’s method. Besides, both studies showed that some estimation problems are predictable through simple statistics such as total number of individuals or number of non-null counts. Accordingly, we compared the fixed sample size sampling method, to a sequential method, where sampling goes on until a minimum number of individuals or positive counts have been observed. We showed that sequential sampling improves the estimation of dispersion but causes the estimation of mean to be biased ; still, it improves the estimation of confidence intervals for the mean. Hence, this work quantifies errors in the estimation of mean and dispersion in the case of overdispersed count data, compares various estimation methods, and leads to practical recommendations as for sampling and estimation methods.
5

Prise en compte de la surdispersion par des modèles à mélange de Poisson

MARQUE, Sebastien 03 December 2003 (has links) (PDF)
Cette thèse propose une approche opérationnelle permettant de traiter des données environnementales surdispersées. Cette surdispersion, qui peut avoir pour origine une mauvaise spécification du modèle ou un recueil de données incomplet, entraîne un biais important dans l'estimation des paramètres. Ce travail propose donc une approche basée sur la régression Arcsinus Stricte comme alternative à la régression Binomiale-Négative. Le second aspect est abordé en présentant un modèle hiérarchique encore méconnu en épidémiologie et une extension possible aux corrélations spatiales, qui permet de compléter l'information disponible dans les études écologiques. Chacun de ces deux aspects seront détaillés d'un point de vue théorique et par des études de simulation. Enfin, nous préciserons les caractéristiques de la mortalité cardiovasculaire chez les personnes âgées par une analyse démographique complète. Nous détaillerons ensuite les facteurs de risque usuels de cette cause de décès ainsi que l'effet des éléments minéraux de l'eau de boisson, et principalement le calcium et le magnésium.
6

Contributions théoriques et pratiques aux familles exponentielles

Kokonendji, Célestin 02 December 2004 (has links) (PDF)
Les familles exponentielles de lois de probabilité offrent une panoplie de modèles très utiles en statistique ainsi qu'en probabilités. Les travaux résumés dans ce mémoire s'intéressent à leurs caractérisations et interprétations probabilistes, ainsi que leurs applications en statistique. Dans la première partie, une nouvelle classe de familles exponentielles naturelles (FEN) est introduite puis décrite complétement. Elle s'appuie sur une transformation dite de Lindsay des FEN de fonctions variance cubiques. Des interprétations probabilistes par les lois de temps de frappe des processus stochastiques sont données. Enfin, à travers une notion de d-pseudo-orthogonalité des polynômes associés à une densité de FEN, plusieurs caractérisations des FEN de fonctions variance polynomiales de degré 2d-1 sont données pour d=2,3,... . La deuxième partie est consacrée au déterminant des matrices de moments des lois multidimensionnelles. Deux aspects sont principalement explorés : le premier a trait à une caractérisation du déterminant de la hessienne d'une transformée de Laplace et ses conséquences ; le second concerne de meilleurs estimateurs de la variance généralisée ou du déterminant de la matrice de variance-covariance. Une nouvelle caractérisation des FEN Poisson-gaussiennes moyennant la variance généralisée est alors donnée. La troisième partie étudie des modèles exponentiels, de plus en plus appropriés et complémentaires, pour l'analyse statistique des données de comptage qui révèle une variabilité plus grande que la moyenne prédite. Ce phénomène dit de surdispersion par rapport à la loi de Poisson est examiné à travers des FEN binomiale négative généralisée et arcsinus stricte ainsi que d'une grande classe des FEN dite de Hinde-Demétrio, laquelle englobe la binomiale négative et l'arcsinus stricte. Des estimations et test d'hypothèses sur certains paramètres des modèles surdispersés sont proposés et appliquées sur des données réelles. Dans la dernière partie, deux techniques d'estimation sont présentées. La première est relative à une loi implicite ou conditionnelle d'un paramètre connaissant les observations. La seconde est une approche pour montrer l'unimodalité de la vraisemblance dans un modèle de capture séquentielle. Cette dernière est appliquée à l'estimation de la biomasse des saumons dans le bassin de l'Adour.
7

Méthodes statistiques pour la modélisation des facteurs influençant la distribution et l’abondance de populations : application aux rapaces diurnes nichant en France / Statistical methods for modelling the distribution and abundance of populations : application to raptors breeding in France

Le Rest, Kévin 19 December 2013 (has links)
Face au déclin global de la biodiversité, de nombreux suivis de populations animales et végétales sont réalisés sur de grandes zones géographiques et durant une longue période afin de comprendre les facteurs déterminant la distribution, l’abondance et les tendances des populations. Ces suivis à larges échelles permettent de statuer quantitativement sur l’état des populations et de mettre en place des plans de gestion appropriés en accord avec les échelles biologiques. L’analyse statistique de ce type de données n’est cependant pas sans poser un certain nombre de problèmes. Classiquement, on utilise des modèles linéaires généralisés (GLM), formalisant les liens entre des variables supposées influentes (par exemple caractérisant l’environnement) et la variable d’intérêt (souvent la présence / absence de l’espèce ou des comptages). Il se pose alors un problème majeur qui concerne la manière de sélectionner ces variables influentes dans un contexte de données spatialisées. Cette thèse explore différentes solutions et propose une méthode facilement applicable, basée sur une validation croisée tenant compte des dépendances spatiales. La robustesse de la méthode est évaluée par des simulations et différents cas d’études dont des données de comptages présentant une variabilité plus forte qu’attendue (surdispersion). Un intérêt particulier est aussi porté aux méthodes de modélisation pour les données ayant un nombre de zéros plus important qu’attendu (inflation en zéro). La dernière partie de la thèse utilise ces enseignements méthodologiques pour modéliser la distribution, l’abondance et les tendances des rapaces diurnes en France. / In the context of global biodiversity loss, more and more surveys are done at a broad spatial extent and during a long time period, which is done in order to understand processes driving the distribution, the abundance and the trends of populations at the relevant biological scales. These studies allow then defining more precise conservation status for species and establish pertinent conservation measures. However, the statistical analysis of such datasets leads some concerns. Usually, generalized linear models (GLM) are used, trying to link the variable of interest (e.g. presence/absence or abundance) with some external variables suspected to influence it (e.g. climatic and habitat variables). The main unresolved concern is about the selection of these external variables from a spatial dataset. This thesis details several possibilities and proposes a widely usable method based on a cross-validation procedure accounting for spatial dependencies. The method is evaluated through simulations and applied on several case studies, including datasets with higher than expected variability (overdispersion). A focus is also done for methods accounting for an excess of zeros (zero-inflation). The last part of this manuscript applies these methodological developments for modelling the distribution, abundance and trend of raptors breeding in France.

Page generated in 0.0827 seconds