Global ETD Search

41	Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populations Sedki, Mohammed 31 October 2012 (has links) (PDF) Cette thèse propose et étudie deux techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. Dans ce contexte, la vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comporte des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus par cette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et on supposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise une approximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de Del Moral et al. que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveaux d'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simula- tions par rapport à la méthode ABC avec acceptation couramment utilisée. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Méthodes bayésiennes méthodes de Monte-Carlo méthodes ABC modèles de génétique des populations
42	Estimation non-paramétrique dans les problèmes inverses à opérateur bruité Vareschi, Thomas 06 December 2013 (has links) (PDF) Cette thèse étudie l'effet de l'imprécision sur un opérateur intervenant dans la résolution d'un problème inverse. La problématique habituelle des problèmes inverses est l'approximation d'un signal d'entrée à partir de son image par un opérateur régularisant. A l'incertitude habituelle contaminant l'observation du signal de sortie, on ajoute cette erreur commise sur l'opérateur que l'on modélise par un processus Gaussien d'une certaine amplitude, potentiellement différente de la précédente. Nous nous intéressons plus particulièrement au cas où l'opérateur en question est un opérateur à noyau, lorsque ce dernier est lui même bruité. Ce modèle recouvre par exemple les cas de la convolution de Fourier périodique, de Laplace/Volterra, ou bien la convolution sphérique. \\Nous développons des procédures statistiques d'estimation dans chacun de ces cas, en traitant de manière adéquate la nouvelle erreur commise sur le noyau selon la forme de la matrice associée à un schéma de Galerkin. Plus précisément, nous étudions le risque quadratique dans le cas où cette dernière est diagonale, diagonale par blocs ou bien triangulaire inférieure et de Toeplitz. Dans chacun de ces cas, nous mettons en évidence de nouvelles vitesses de convergence faisant intervenir de manière explicite les deux paramètres d'incertitude (sur le signal de sortie et sur le noyau) et dont nous prouvons l'optimalité au sens minimax. Enfin, nous étudions spécifiquement le cas de la déconvolution sphérique en mettant à profit les needlets sphériques, sorte d'équivalent d'ondelettes sur la sphère, dans la construction d'une procédure qui traite ce même problème pour un risque en norme Lp. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Estimation non-paramétrique Problèmes inverses Bruit dans l'opérateur Déconvolution aveugle Adaptativité Déconvolution de Laplace Déconvolution sphérique
43	Lois limites des écarts extrêmes associés aux histogrammes et à diverses statistiques d'ordre dans l'estimation d'une densité de probabilité Béra, Michel 13 June 1977 (has links) (PDF) L'étude est associée aux problèmes de lois limites associées à un échantillon (X1,..,Xn). Le chapitre 1 est consacré à certains aspects de la loi multinomiale, et dégage une loi limite sur les valeurs extrêmes de problèmes d'occupation. Il améliore significativement les résultats de P.Revesz (1971-72), et conduit à des lois limites sur l'estimation de la densité dans Rs, par deux méthodes dites d'estimation par histogramme aléatoire. Le chapitre 2 est consacré à la loi conjointe des écarts inter-quantiles, et donne une nouvelle loi limite des extrêmes de ces écarts, généralisant les travaux de G.Tusnady (1974). Le chapitre 3 prolonge les travaux de ce dernier sur l'estimation de la densité par histogramme aléatoire. Le caractère asymptotiquement poissonnien de la loi multinomiale et de la loi de Dirichlet est mis en évidence dans des conditions très générales. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie estimation de la densité loi multinormale loi de dirichlet quantile valeurs extremes histogramme aléatoire
44	Modèles d'encodage parcimonieux de l'activité cérébrale mesurée par IRM fonctionnelle Bakhous, Christine 10 December 2013 (has links) (PDF) L'imagerie par résonance magnétique fonctionnelle (IRMf) est une technique non invasive permettant l'étude de l'activité cérébrale au travers des changements hémodynamiques associés. Récemment, une technique de détection-estimation conjointe (DEC) a été développée permettant d'alterner (1) la détection de l'activité cérébrale induite par une stimulation ainsi que (2) l'estimation de la fonction de réponse hémodynamique caractérisant la dynamique vasculaire; deux problèmes qui sont généralement traités indépendamment. Cette approche considère une parcellisation a priori du cerveau en zones fonctionnellement homogènes et alterne (1) et (2) sur chacune d'entre elles séparément. De manière standard, l'analyse DEC suppose que le cerveau entier peut être activé par tous les types de stimuli (visuel, auditif, etc.). Cependant la spécialisation fonctionnelle des régions cérébrales montre que l'activité d'une région n'est due qu'à certains types de stimuli. La prise en compte de stimuli non pertinents dans l'analyse, peut dégrader les résultats. La sous-famille des types de stimuli pertinents n'étant pas la même à travers le cerveau une procédure de sélection de modèles serait très coûteuse en temps de calcul. De plus, une telle sélection a priori n'est pas toujours possible surtout dans les cas pathologiques. Ce travail de thèse propose une extension de l'approche DEC permettant la sélection automatique des conditions (types de stimuli) pertinentes selon l'activité cérébrale qu'elles suscitent, cela simultanément à l'analyse et adaptativement à travers les régions cérébrales. Des exemples d'analyses sur des jeux de données simulés et réels, illustrent la capacité de l'approche DEC parcimonieuse proposée à sélectionner les conditions pertinentes ainsi que son intérêt par rapport à l'approche DEC standard. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie IRM fonctionnelle Inférence bayesienne Approximations variationnelles Techniques stochastiques Champ de Markov caché
45	Valeurs extrêmes : covariables et cadre bivarié Schorgen, Antoine 21 September 2012 (has links) (PDF) Cette thèse aborde deux sujets peu traités dans la littérature concernant le théorie des valeurs extrêmes : celui des observations en présence de covariables et celui des mesures de dépendance pour des paires d'observations. Dans la première partie de cette thèse, nous avons considéré le cas où la variable d'intérêt est observée simultanément avec une covariable, pouvant être fixe ou aléatoire. Dans ce contexte, l'indice de queue dépend de la covariable et nous avons proposé des estimateurs de ce paramètre dont nous avons étudié les propriétés asymptotiques. Leurs comportements à distance finie ont été validés par simulations. Puis, dans la deuxième partie, nous nous sommes intéressés aux extrêmes multivariés et plus particulièrement à mesurer la dépendance entre les extrêmes. Dans une situation proche de l'indépendance asymptotique, il est très difficile de mesurer cette dépendance et de nouveaux modèles doivent être introduits. Dans ce contexte, nous avons adapté un outil de géostatistique, le madogramme, et nous avons étudié ses propriétés asymptotiques. Ses performances sur simulations et données réelles ont également été exhibées. Cette thèse offre de nombreuses perspectives, tant sur le plan pratique que théorique dont une liste non exhaustive est présentée en conclusion de la thèse. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Statistique Valeurs extrêmes Covariable Indépendance asymptotique Madogramme Simulations
46	Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptatives Roche, Angelina 07 July 2014 (has links) (PDF) L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie données fonctionnelles estimateurs adaptatifs régression sélection de modèle méthode de Goldenshluger-Lepski méthodologie des surfaces de réponses
47	Agrégation d'estimateurs et de classificateurs : théorie et méthodes Guedj, Benjamin 04 December 2013 (has links) (PDF) Ce manuscrit de thèse est consacré à l'étude des propriétés théoriques et méthodologiques de différentes procédures d'agrégation d'estimateurs. Un premier ensemble de résultats vise à étendre la théorie PAC-bayésienne au contexte de la grande dimension, dans les modèles de régression additive et logistique. Nous prouvons dans ce contexte l'optimalité, au sens minimax et à un terme logarithmique près, de nos estimateurs. La mise en \oe uvre pratique de cette stratégie, par des techniques MCMC, est étayée par des simulations numériques. Dans un second temps, nous introduisons une stratégie originale d'agrégation non linéaire d'estimateurs de la fonction de régression. Les qualités théoriques et pratiques de cette approche --- dénommée COBRA --- sont étudiées, et illustrées sur données simulées et réelles. Enfin, nous présentons une modélisation bayésienne --- et l'implémentation MCMC correspondante --- d'un problème de génétique des populations. Les différentes approches développées dans ce document sont toutes librement téléchargeables depuis le site de l'auteur. [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning [MATH:MATH_ST] Mathematics/Statistics Agrégation régression classification inégalités oracles théorie PAC-bayésienne COBRA MCMC parcimonie
48	Une nouvelle famille de modèles linéaires généralisés (GLMs) pour l'analyse de données catégorielles ; application à la structure et au développement des plantes. Peyhardi, Jean 09 December 2013 (has links) (PDF) Le but de cette thèse est de proposer une nouvelle classe de GLMs pour une variable réponse catégorielle structurée hiérarchiquement, comme une variable partiellement ordonnée par exemple. Une première étape a été de mettre en évidence les différences et les point communs entre les GLMs pour variables réponses nominale et ordinale. Sur cette base nous avons introduit une nouvelle spécification des GLMs pour variable réponse catégorielle, qu'elle soit ordinale ou nominale, basée sur trois composantes : le ratio de probabilitées r, la fonction de répartition F et la matrice de design Z. Ce cadre de travail nous a permis de définir une nouvelle famille de modèles pour données nominales, comparable aux familles de modèles cumulatifs, séquentiels et adjacents pour données ordinales. Puis nous avons défini la classe des modèles linéaires généralisés partitionnés conditionnels (PCGLMs) en utilisant des arbres orientés et la specification (r,F,Z). Dans notre contexte biologique, les données sont des séquences multivariées composées d'une variable réponse catégorielle (le type de production axillaire) et de variables explicatives (longueur de l'entre-noeud par exemple). Dans les combinaisons semi-markoviennes de modèles linéaires généralisés partitionnés conditionnés (SMS-PCGLM) estimées sur la base de ces séquences, la semi-chaîne de Markov sous-jacente représente la succession et les longueurs des zones de ramification, tandis que les PCGLMs représentent, l'influence des variables explicatives de croissance sur les productions axillaires dans chaque zone de ramification. En utilisant ces modèles statistiques intégratifs, nous avons montré que la croissance de la pousse influençait des événements de ramification particuliers. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [STAT:ME] Statistics/Methodology [STAT:ME] Statistiques/Méthodologie [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning fonction de lien variable nominale variable ordinale variable structurée hiérarchiquement reparametrisation de modèle motif de ramification
49	APPRENABILITÉ DANS LES PROBLÈMES DE L'INFÉRENCE SÉQUENTIELLE Ryabko, Daniil 19 December 2011 (has links) (PDF) Les travaux présentés sont dédiés à la possibilité de faire de l'inférence statistique à partir de données séquentielles. Le problème est le suivant. Étant donnée une suite d'observations x_1,...,x_n,..., on cherche à faire de l'inférence sur le processus aléatoire ayant produit la suite. Plusieurs problèmes, qui d'ailleurs ont des applications multiples dans différents domaines des mathématiques et de l'informatique, peuvent être formulés ainsi. Par exemple, on peut vouloir prédire la probabilité d'apparition de l'observation suivante, x_{n+1} (le problème de prédiction séquentielle); ou répondre à la question de savoir si le processus aléatoire qui produit la suite appartient à un certain ensemble H_0 versus appartient à un ensemble différent H_1 (test d'hypothèse) ; ou encore, effectuer une action avec le but de maximiser une certain fonction d'utilité. Dans chacun de ces problèmes, pour rendre l'inférence possible il faut d'abord faire certaines hypothèses sur le processus aléatoire qui produit les données. La question centrale adressée dans les travaux présentés est la suivante : sous quelles hypothèses l'inférence est-elle possible ? Cette question est posée et analysée pour des problèmes d'inférence différents, parmi lesquels se trouvent la prédiction séquentielle, les tests d'hypothèse, la classification et l'apprentissage par renforcement. [INFO:INFO_LG] Computer Science/Learning [STAT:ML] Statistics/Machine Learning [STAT:TH] Statistics/Statistics Theory Machine learning learnability sequence prediction time series hypothesis testing
50	Normes Parcimonieuses Structurées : Propriétés Statistiques et Algorithmiques avec Applications à l'Imagerie Cérébrale Jenatton, Rodolphe 24 November 2011 (has links) (PDF) De nombreux domaines issus de l'industrie et des sciences appliquées ont été, au cours des dernières années, les témoins d'une révolution numérique. Cette tendance s'est accompagnée d'une croissance continue du volume des données--vidéos, musiques et images, dont le traitement est devenu un véritable défi technique. Par exemple, il est aujourd'hui fréquent de prendre des centaines de photographies de plusieurs millions de pixels, la moindre application de méthodes du traitement de l'image devenant alors une opération difficile. Dans ce contexte, la parcimonie est apparue comme un concept central en apprentissage statistique et traitement du signal. Il est en effet naturel de représenter, analyser et exploiter les données disponibles à travers un nombre réduit de paramètres. Par exemple, on peut imaginer effectuer de la reconnaissance d'objets sur des images de hautes résolutions en n'utilisant qu'un petit sous-ensemble pertinent de pixels. Alors que les approches générales favorisant la parcimonie ont déjà été l'objet de nombreux travaux--débouchant sur d'élégantes fondations théoriques, des outils algorithmiques efficaces et plusieurs succès pratiques--cette thèse se concentre sur une forme particulière et plus récente de parcimonie, nommée parcimonie structurée. Comme son nom l'indique, nous considérerons des situations où nous ne serons pas simplement intéréssés par la parcimonie, mais où nous aurons également à disposition des connaissances a priori nous renseignant sur certaines propriétés structurelles. En continuant d'exploiter l'exemple de la reconnaissance d'objets mentioné ci-dessus, nous savons que des pixels voisins sur une image ont tendance à partager des propriétés similaires, telles que la classe de l'objet à laquelle ils appartiennent. Ainsi, une approche encourageant la parcimonie devrait tirer partie de cette information spatiale. L'objectif de cette thèse est de comprendre et analyser le concept de parcimonie structurée, en se basant sur des considérations statistiques, algorithmiques et appliquées. Nous commencerons par introduire une famille de normes structurées parcimonieuses dont les propriétés sont étudiées en détail. En particulier, nous montrerons à quel type d'information structurelle ces normes correspondent, et nous présenterons sous quelles conditions statistiques elles sont capables de produire une séléction consistente de variables. Nous étudierons ensuite l'apprentissage de dictionnaires parcimonieux et structurés, où nous exploiterons les normes introduites précédemment dans un cadre de factorisation de matrices. L'approche qui en résulte est fléxible et versatile, et nous montrerons que les éléments de dictionnaire appris exhibent une structure parcimonieuse adaptée à la classe de signaux considérée. Concernant l'optimisation, nous proposerons différents outils algorithmiques efficaces et capables de passer à l'échelle, tels que des stratégies à ensemble de variables actives ou encore des méthodes proximales. Grâce à ces outils algorithmiques, nous illustrerons sur de nombreuses applications issues de domaines variés, quand et pourquoi la parcimonie structurée peut être bénéfique. Ces illustrations contiennent par exemple, des tâches de restauration en traitement de l'image, la modélisation de documents textuels sous la forme d'une hiérarchie de thèmes, la prédiction de la taille d'objets à partir de signaux d'imagerie par résonance magnétique fonctionnelle, ou encore des problèmes de segmentation d'images en vision par ordinateur. [INFO:INFO_LG] Computer Science/Learning [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory parcimonie structurée parcimonie factorisation de matrices optimisation convexe imagerie cérébrale

Search results