Global ETD Search

Return to search

Statistiques discrètes et Statistiques bayésiennes en grande dimension

Dans cette thèse de doctorat, nous présentons les travaux que nous avons effectués dans trois directions reliées : la compression de données en alphabet infini, les statistiques bayésiennes en dimension infinie, et les mélanges de distributions discrètes multivariées. Dans le cadre de la compression de données sans perte, nous nous sommes intéressé à des classes de sources stationnaires sans mémoire sur un alphabet infini, définies par une condition d'enveloppe à décroissance exponentielle sur les distributions marginales. Un équivalent de la redondance minimax de ces classes a été obtenue. Un algorithme approximativement minimax ainsi que des a-priori approximativement les moins favorables, basés sur l'a-priori de Jeffreys en alphabet fini, ont en outre été proposés. Le deuxième type de travaux porte sur la normalité asymptotique des distributions a-posteriori (théorèmes de Bernstein-von Mises) dans différents cadres non-paramétriques et semi-paramétriques. Tout d'abord, dans un cadre de régression gaussienne lorsque le nombre de régresseurs augmente avec la taille de l'échantillon. Les théorèmes non-paramétriques portent sur les coefficients de régression, tandis que les théorèmes semi-paramétriques portent sur des fonctionnelles de la fonction de régression. Dans nos applications au modèle de suites gaussiennes et à la régression de fonctions appartenant à des classe de Sobolev ou de régularité hölderiennes, nous obtenons simultanément le théorème de Bernstein-von Mises et la vitesse d'estimation fréquentiste minimax. L'adaptativité est atteinte pour l'estimation de fonctionnelles dans ces applications. Par ailleurs nous présentons également un théorème de Bernstein-von Mises non-paramétrique pour des modèles exponentiels de dimension croissante. Enfin, le dernier volet de ce travail porte sur l'estimation du nombre de composantes et des variables pertinentes dans des modèles de mélange de lois multinomiales multivariées, dans une optique de classification non supervisée. Ce type de modèles est utilisé par exemple pour traiter des données génotypiques. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. Le critère retenu en pratique comporte une calibration grâce à l'heuristique de pente. Ses performances sont meilleurs que celles des critères classiques BIC et AIC sur des données simulées. L'ensemble des procédures est implémenté dans un logiciel librement accessible.

[MATH] Mathematics

Alphabet infini dénombrable

A-priori bayésien le moins favorable

Codage universel

Compression adaptative

Compression de données sans perte

Redondance minimax

Estimation adaptative

Modèles exponentiels

Normalité asymptotique a-posteriori

Paramètre de la valeur moyenne

Théorème de Bernstein-von Mises

Biostatistiques

Génotypes multilocus

Heuristique de pente

Mélange de multinomiales multivariées

Modèles à classes latentes

Sélection de modèle

Sélection de variables

Vraissemblance pénalisée

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00561749
Date	02 December 2010
Creators	Bontemps, Dominique
Publisher	Université Paris Sud - Paris XI
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0024 seconds

Statistiques discrètes et Statistiques bayésiennes en grande dimension

Description

Links & Downloads

Tags

Additional Fields