En écologie comme dans bien d’autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d’inférence sont souvent mal adaptées à ces distributions, à moins de disposer d’échantillons de très grande taille. Il est donc nécessaire de s’interroger sur la validité des méthodes d’inférence, et de quantifier les erreurs d’estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d’abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d’une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 _ n _ 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l’estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d’estimation de la dispersion. L’erreur d’estimation est d’autant plus importante que le nombre d’individus observés est faible, et l’on peut, pour une population donnée, quantifier le gain en précision résultant de l’exclusion d’échantillons comprenant très peu d’individus. Nous avons ensuite comparé plusieurs méthodes de calcul d’intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d’estimation étaient prévisibles, à travers l’observation de statistiques simples des échantillons comme le nombre total d’individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d’échantillonnage à taille fixe, à une méthode séquentielle, où l’on échantillonne jusqu’à observer un nombre minimum d’individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l’échantillonnage séquentiel améliore l’estimation du paramètre de dispersion mais induit un biais dans l’estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d’estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d’estimations, et aboutit à des recommandations pratiques en termes de méthodes d’échantillonnage et d’estimation. / In ecology as well as in other scientific areas, count samples often comprise many zeros, and few high abundances. Their distribution is particularly overdispersed, and skewed. The most classical methods of inference are often ill-adapted to these distributions, unless sample size is really large. It is thus necessary to question the validity of inference methods, and to quantify estimation errors for such data. This work has been motivated by a fish abundance dataset, corresponding to punctual sampling by electrofishing. This dataset comprises more than 2000 samples : each sample corresponds to punctual abundances (considered to be independent and identically distributed) for one species and one fishing campaign. These samples are small-sized (generally, 20 _ n _ 50) and comprise many zeros (overall, 80% of counts are zeros). The fits of various classical distribution models were compared on these samples, and the negative binomial distribution was selected. Consequently, we dealt with the estimation of the parameters of this distribution : the parameter of mean m and parameter of dispersion q. First, we studied estimation problems for the dispersion. The estimation error is higher when few individuals are observed, and the gain in precision for a population, resulting from the exclusion of samples comprising very few individuals, can be quantified. We then compared several methods of interval estimation for the mean. Confidence intervals based on negative binomial likelihood are, by far, preferable to more classical ones such as Student’s method. Besides, both studies showed that some estimation problems are predictable through simple statistics such as total number of individuals or number of non-null counts. Accordingly, we compared the fixed sample size sampling method, to a sequential method, where sampling goes on until a minimum number of individuals or positive counts have been observed. We showed that sequential sampling improves the estimation of dispersion but causes the estimation of mean to be biased ; still, it improves the estimation of confidence intervals for the mean. Hence, this work quantifies errors in the estimation of mean and dispersion in the case of overdispersed count data, compares various estimation methods, and leads to practical recommendations as for sampling and estimation methods.
Identifer | oai:union.ndltd.org:theses.fr/2011LYO10013 |
Date | 25 January 2011 |
Creators | Vaudor, Lise |
Contributors | Lyon 1, Lamouroux, Nicolas |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French, English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0026 seconds