Global ETD Search

1	Estimation et prévision améliorées du paramètre d'une loi binomiale Nemiri, Ahmed 03 1900 (has links) (PDF) Dans ce mémoire, on présente une étude sur l'estimation et la prévision du paramètre binomial. Le Chapitre 1 traite de l'estimation ponctuelle et de la prévision du paramètre binomial. En suivant l'approche de Brown (2008a), on commence ce chapitre par la description de six estimateurs : trivial, moyenne générale, Bayes empirique paramétrique avec la méthode des moments, Bayes empirique paramétrique avec la méthode du maximum de vraisemblance, Bayes empirique non paramétrique et James-Stein. Ensuite, on évalue ces estimateurs en se servant de la base de données de baseball 2005 de Brown (2008b) et on finit par la comparaison des performances de ces estimateurs entre elles, selon leurs écarts quadratiques totaux normalisés. Le Chapitre 2 traite de l'estimation par intervalle de confiance et de la prévision du paramètre binomial. Dans ce chapitre, on étudie cinq intervalles de confiance en suivant l'approche de Brown, Cai et DasGupta (1999) et (2001) : standard ICs, Wilson ICw, Agresti-Coull ICac, maximum de vraisemblance ICrv et Jeffreys bilatéral ICj. En premier, vu l'importance particulière de l'intervalle standard, on calcule théoriquement, avec un n modéré, la déviation du biais, de la variance et des coefficients d'asymétrie et d'aplatissement de la variable aléatoire Wn = (n1/2(p-p) / √pq) loi→ N (0,1) par rapport à leurs valeurs asymptotiques correspondantes 0, 1, 0 et 3. Ensuite, on approxime la probabilité de couverture et la longueur moyenne de chacun des cinq intervalles de confiance mentionnés plus haut par un développement d'Edgeworth d'ordres 1 et 2. Enfin, en se servant de la même base de données de baseball 2005, on détermine ces intervalles ainsi que leurs probabilités de couverture et leurs longueurs moyennes et on compare leurs performances entre elles, selon leurs probabilités de couverture et leurs longueurs moyennes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : estimateur de Bayes empirique paramétrique, méthode des moments, méthode du maximum de vraisemblance, estimateur de Bayes empirique non paramétrique, estimateur de James-Stein, développement d'Edgeworth d'ordres 1 et 2, intervalle de Wald (standard), intervalle de Wilson , intervalle d'Agresti-Coull, intervalle du rapport de vraisemblance, intervalle de Jeffreys bilatéral, programmes en R. Estimation Bayesienne (Statistique) Expansion d'Edgeworth Maximum de vraisemblance Méthode des moments (Statistique)
2	Propriétés optimales de certains estimateurs d'interaction en analyse de variance Robert, Claudine 07 May 1982 (has links) (PDF) On présente un travail relatif 0 l'analyse de variance 0 deux facteurs en présence d'interaction multiplicative. on considère pour les paramètres d'interaction des estimateurs proposes par J.R. Barra. On montre que, sous des hypothèses simples, les lois des estimateurs ont de "bonnes" propriétés d'approximation. plan factoriels maximum de vraisemblance loi conditionnelle fonction caractéristique convergence presque sûre
3	Estimation non-paramétrique d'une densité k-monotone: Une nouvelle théorie de distribution asymptotique. Balabdaoui, Fadoua 26 April 2004 (has links) (PDF) Nous considérons l'estimation non-paramétrique d'une densité k-monotone définie sur (0,∞), pour un entier k > 0 donné, via les méthodes de maximum de vraisemblance et des moindres carrés qu'on note respectivement par MLE et LSE.<br /><br />Dans l'introduction, nous présentons tout d'abord la motivation principale derrière ce problème et nous faisons l'effort d'inclure dans le cadre général de notre travail les résultats asymptotiques qui étaient déjà établis pour les cas spéciaux k=1 et k=2.<br /> <br />Ensuite, nous nous penchons sur l'étude des propriétés des MLE et LSE d'une densité k-monotone g_0 dans le cas où on dispose de n observations indépendantes générées de g_0. Notre étude asymptotique est locale, c'est-à-dire que nous nous intéressons uniquement aux propriétés asymptotiques des estimateurs et de leur dérivées à un point fixe, x_0. Sous certaines hypothèses que nous précisons, nous établissons d'abord les bornes inférieures minimax pour l'estimation des dérivées g^{(j)}_0(x_0), j=0,...,k-1. Les bornes obtenues indiquent que n^{-(k-j)/(2k+1)} est la vitesse de convergence optimale de n'importe quel estimateur non-paramétrique de g^{(j)}_0(x_0). Sous les mêmes hypothèses et si une certaine conjecture est vraie, nous démontrons que cette vitesse optimale est atteinte dans le cas des MLE et LSE.<br /><br />Pour compléter la théorie asymptotique des estimateurs et de leur dérivées au point x_0, nous passons à la dérivation de leurs distributions limites lorsque la taille de l'échantillon n tend vers l'infini. Il s'avère que ces distributions dépendent d'un processus stochastique bien particulier défini sur l'ensemble des réels R. On note ce processus par H_k Le 3ème chapitre est consacré essentiellement à l'existence et à l'unicité de H_k, ainsi qu'à sa caractérisation. Nous démontrons que si Y_k est la primitive (k-1)-ème d'un mouvement Brownien + k!/(2k)! t^{2k}, alors H_k reste au-dessus (au-dessous) de Y_k lorsque k est pair (impair). Un simple changement de variable suffit pour reconnaître que nos résultats comprennent les cas spéciaux k=1 et k=2 où le problème se réduit à l'estimation d'une densité décroissante et d'une densité décroissante et convexe respectivement. Pour ces cas-là, la théorie asymptotique des MLE et LES a été déjà établie.<br /><br />L'aspect algorithmique fait l'objet du 4ème chapitre. Les algorithmes de Splines itératifs (Iterative Spline algorithms) sont développés et implémentés afin de calculer les estimateurs et aussi pour obtenir une approximation du processus limite sur n'importe quel compact dans R. Ces algorithmes exploitent essentiellement la structure 'splineuse' des MLE, LSE et H_k, et se basent ainsi sur la suppression et l'addition itératives des noeuds de certains Splines aléatoires. [MATH] Mathematics Estimation non-paramétrique Interpolation K-monotone Maximum de vraisemblance Mouvement Brownien Moindres carrés Risque minimax Splines
4	Sur quelques extensions des chaînes de Markov cachées et couples. Applications à la segmentation non-supervisée de signaux radar. Brunel, Nicolas 05 December 2005 (has links) (PDF) Nous nous intéressons à l'extension des méthodes de segmentation bayésienne reposant sur le modèle de chaîne de Markov cachée, utilisé classiquement en traitement du signal. Nos travaux se sont développés selon trois axes : la remise en cause de la structure du modèle classique par l'utilisation des modèles de chaînes de Markov couple, et la recherche de familles de lois pertinentes pour les données multidimensionnelles afin de traiter les observations complexes obtenues par les radars modernes, notamment à l'aide des copules. Un troisième axe consiste en l'estimation de ces modèles. Nous proposons une méthode d'estimation des paramètres des modèles à données manquantes fondée sur les fonctions estimantes, ce qui permet de choisir des fonctions moins complexes que la vraisemblance. En exploitant la structure cachée, nous proposons un algorithme itératif généralisant EM. Nous donnons alors de nouveaux estimateurs pour les modèles décrits à l'aide de copules. Nous obtenons ainsi des algorithmes d'estimation remarquablement simples pour les modèles de Markov couples, et nous montrons leur bon comportement sur données simulées et sur données radar. [MATH] Mathematics Segmentation chaîne de Markov cachée copule radar maximum de vraisemblance fonction estimante statistique computationnelle
5	Multidimensionnalité pour la détection de gènes influençant des caractères quantitatifs. Application à l'espèce porcine Gilbert, Hélène 31 January 2003 (has links) (PDF) Ce travail a pour but de développer des méthodes de détection de locus affectant les caractères quantitatifs, appelés QTL, à partir de l'information disponible sur des caractères corrélés et/ou des positions liées, chez les animaux d'élevage.<br />Les méthodologies ont été dans un premier temps caractérisées pour leurs puissances et leurs précisions d'estimation des paramètres (positions et effets des QTL) à partir de données simulées. Nous avons développé d'une part des méthodes multivariées, extrapolées de techniques décrites pour l'analyse de données issues de croisements entre populations supposées génétiquement fixées, et d'autre part des méthodes synthétiques univariées, développées à l'occasion de ce travail. Ces dernières méthodes permettent de synthétiser l'information due à la présence du (des) QTL déterminant plusieurs caractères dans une unique variable, combinaison linéaire des caractères. Le nombre de paramètres à estimer est ainsi indépendant du nombre de caractères étudiés, permettant de réduire fortement les temps de calcul par rapport aux méthodes multivariées. La stratégie retenue repose sur des techniques d'analyse discriminante. Pour chaque vecteur de positions testé, des groupes de descendants sont créés en fonction de la probabilité que les individus aient reçu l'un ou l'autre haplotype de leur père. Les matrices de (co)variance génétique et résiduelle spécifiques de la présence du (des) QTL peuvent alors être estimées. La transformation linéaire permet de maximiser le rapport de ces deux variabilités.<br />Les méthodes basées sur l'analyse de variables synthétiques permettent en général d'obtenir des résultats équivalents, voire meilleurs, que les stratégies multivariées. Seule l'estimation des effets des QTL et de la corrélation résiduelle entre les caractères reste inaccessible par ces méthodes. Une stratégie itérative basée sur l'analyse de variables synthétiques pour la sélection des caractères et des régions chromosomiques à analyser par les méthodes multivariées est proposée. Par ailleurs, nous avons quantité les apports des méthodologies multidimensionnelles pour la cartographie des QTL par rapport aux méthodes unidimensionnelles. Dans la majorité des cas, la puissance et la précision d'estimation des paramètres sont nettement améliorées. De plus, nous avons pu montrer qu'un QTL pléiotrope peut être discriminé de deux QTL liés, s'ils sont relativement distants.<br />Ces méthodologies ont été appliquées à la détection de QTL déterminant cinq caractères de composition corporelle chez le porc sur le chromosome 7. Deux groupes de QTL déterminant des types de gras différents, le gras interne et le gras externe, ont ainsi été discriminés. Pour chacun de ces groupes, les analyses multiQTL ont permis d'identifier au moins deux régions chromosomiques distinctes déterminant les caractères. QTL multicaractère multilocus familles maximum de vraisemblance simulations
6	Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique. Toussile, Wilson 29 September 2010 (has links) (PDF) Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information à priori sur la population cible : il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistance. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro. [MATH] Mathematics Sélection de variable Modèles de mélange Maximum de vraisemblance pénalisé Génétique des populations Paludisme Forêts aléatoires
7	Etude du décodage des codes de Reed-Muller et application à la cryptographie. Sakkour, Bassem 06 April 2007 (has links) (PDF) Dans cette thèse, nous étudions les codes de Reed-Muller qui constituent une des familles de codes correcteurs les plus étudiées, et les plus utilisées dans la transmission des communications numériques. Grâce à leur rapidité d'encodage et de décodage, ils furent notamment utilisés pour les transmissions satellitaires. Ils ont également un lien très fort avec les notions de fonctions booléennes. L'étude de ces dernières constitue le coeur de la réalisation et de la sécurité des systèmes de chiffrement à clé secrète, tant par blocs que par flot. Depuis l'introduction de ces codes, de très nombreux algorithmes de décodage virent le jour, et aujourd'hui encore étudier leur structure afin de construire des algorithmes de décodage constitue un fructueux domaine de recherche. Ces algorithmes de décodage peuvent être utilisés dans l'étude de la structure de systèmes de chiffrement à clé secrète. Nous exposons un point de vue unificateur à l'ensemble des algorithmes de décodage des codes de Reed-Muller, ce point de vue étant celui de la dérivée discrète. Nous exposons un algorithme performant pour le décodage des codes d'ordre deux, que nous analysons ensuite. Nous discutons les résultats de simulations des algorithmes étudiés pour les petites et moyennes longueurs de code. Ces résultats montrent que l'algorithme proposé décode beaucoup plus loin en pratique que les autres algorithmes. [INFO] Computer Science Code correcteur d'erreur Reed-Muller Plotkin Maximum de vraisemblance
8	Estimation de la moyenne et de la variance de l'abondance de populations en écologie à partir d'échantillons de petite taille Vaudor, Lise 25 January 2011 (has links) (PDF) En écologie comme dans bien d'autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d'inférence sont souvent mal adaptées à ces distributions, à moins de disposer d'échantillons de très grande taille. Il est donc nécessaire de s'interroger sur la validité des méthodes d'inférence, et de quantifier les erreurs d'estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d'abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d'une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 _ n _ 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l'estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d'estimation de la dispersion. L'erreur d'estimation est d'autant plus importante que le nombre d'individus observés est faible, et l'on peut, pour une population donnée, quantifier le gain en précision résultant de l'exclusion d'échantillons comprenant très peu d'individus. Nous avons ensuite comparé plusieurs méthodes de calcul d'intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d'estimation étaient prévisibles, à travers l'observation de statistiques simples des échantillons comme le nombre total d'individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d'échantillonnage à taille fixe, à une méthode séquentielle, où l'on échantillonne jusqu'à observer un nombre minimum d'individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l'échantillonnage séquentiel améliore l'estimation du paramètre de dispersion mais induit un biais dans l'estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d'estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d'estimations, et aboutit à des recommandations pratiques en termes de méthodes d'échantillonnage et d'estimation. Binomiale négative Échantillonnage Estimation Maximum de vraisemblance Intervalle de confiance Surdispersion
9	Inference dans les modeles dynamiques de population: applications au VIH et au VHC Guedj, Jérémie 08 December 2006 (has links) (PDF) Les modèles dynamiques de l'intéraction virus/système immunitaire basés sur des systèmes d'équations différentielles ordinaires sans solution ont considérablement amélioré la connaissance de certains virus comme le VIH et le VHC. <br />En raison des difficultés statistiques et numériques d'estimation des paramètres de ces modèles, les premiers résultats dans la littérature ont été obtenus en faisant des estimations patient par patient sur des modèles simplifiés et linéarisés. Toutefois, ceux-ci ne permettent pas de considérer la dynamique de l'infection dans son ensemble. C'est pourquoi certains auteurs ont proposé récemment des approches Bayésiennes d'estimation des paramètres sur des modèles non-simplifiés. En outre, celles-ci sont proposées dans un cadre de population, où l'information issue des variabilité inter-patients est prise en compte.<br />Dans cette thèse, nous proposons une voie alternative à ces travaux, en développant une approche fréquentiste pour l'estimation des paramètres. La complexité de ces modèles rendant les logiciels existants non-adéquats, nous développons une méthode originale d'estimation des paramètres, qui utilise la structure particulière de ces modèles. Nous montrons la robustesse de cette approche et l'appliquons aux données de l'essai ANRS ALBI 070, en intégrant le problème méthodologique des données virologiques censurées. Nous fournissons notamment une estimation $in~vivo$ de l'effet différentiel d'efficacité de deux stratégies de traitements et illustrons de ce fait l'intérêt de cette approche pour définir un critère alternatif d'analyse des essais cliniques. Enfin, nous proposons une méthode d'étude de l'identifiabilité des modèles dynamiques du VIH. Nous montrons ainsi l'impact qu'auraient de nouvelles quantifications pour améliorer l'identifiabilité de ces modèles et, corollairement, nous discutons les limites de l'utilisation de ces modèles au vu des données habituellement disponibles. [SDV] Life Sciences inference VIH modeles non-lineaires a effets mixtes modeles dynamiques maximum de vraisemblance identifiabilite equations differentielles
10	Cartographie de gènes à caractères quantitatifs par déséquilibre de liaison Boitard, Simon 12 December 2006 (has links) (PDF) Le but de ma thèse est de développer des méthodes statistiques permettant d'estimer la position des gènes qui influencent l'expression d'un caractère à valeurs continues (QTL). Je propose d'abord un algorithme numérique permettant d'approcher la densité de transition des fréquences d'haplotypes sous un modèle de diffusion à deux loci avec recombinaison. Je montre aussi que cette méthode peut être utilisée pour calculer la vraisemblance de la position d'un gène. Je présente ensuite une méthode de cartographie de QTL par maximum de vraisemblance. Je calcule la vraisemblance à l'ordre 1 en utilisant l'espérance des fréquences d'haplotypes sous un modèle de Wright-Fisher à 3 loci avec recombinaison, dont je dérive une expression approchée. Je m'intéresse enfin au problème de la détection de QTL dans le cas de populations structurées. J'étudie la loi asymptotique du Transmission Desequilibrium Test (TDT) et en déduis des résultats concernant son erreur de première espèce et sa puissance [SDV] Life Sciences données à structure cachée maximum de vraisemblance processus de diffusion génétique des piopulqtions génétique quantitative

Search results