En écologie comme dans bien d'autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d'inférence sont souvent mal adaptées à ces distributions, à moins de disposer d'échantillons de très grande taille. Il est donc nécessaire de s'interroger sur la validité des méthodes d'inférence, et de quantifier les erreurs d'estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d'abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d'une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 _ n _ 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l'estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d'estimation de la dispersion. L'erreur d'estimation est d'autant plus importante que le nombre d'individus observés est faible, et l'on peut, pour une population donnée, quantifier le gain en précision résultant de l'exclusion d'échantillons comprenant très peu d'individus. Nous avons ensuite comparé plusieurs méthodes de calcul d'intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d'estimation étaient prévisibles, à travers l'observation de statistiques simples des échantillons comme le nombre total d'individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d'échantillonnage à taille fixe, à une méthode séquentielle, où l'on échantillonne jusqu'à observer un nombre minimum d'individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l'échantillonnage séquentiel améliore l'estimation du paramètre de dispersion mais induit un biais dans l'estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d'estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d'estimations, et aboutit à des recommandations pratiques en termes de méthodes d'échantillonnage et d'estimation.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00842873 |
Date | 25 January 2011 |
Creators | Vaudor, Lise |
Publisher | Université Claude Bernard - Lyon I |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds