101 |
Méthodes d'apprentissage statistique pour le ranking théorie, algorithmes et applicationsRobbiano, Sylvain 19 June 2013 (has links) (PDF)
Le ranking multipartite est un problème d'apprentissage statistique qui consiste à ordonner les observations qui appartiennent à un espace de grande dimension dans le même ordre que les labels, de sorte que les observations avec le label le plus élevé apparaissent en haut de la liste. Cette thèse vise à comprendre la nature probabiliste du problème de ranking multipartite afin d'obtenir des garanties théoriques pour les algorithmes de ranking. Dans ce cadre, la sortie d'un algorithme de ranking prend la forme d'une fonction de scoring, une fonction qui envoie l'espace des observations sur la droite réelle et l'ordre final est construit en utilisant l'ordre induit par la droite réelle. Les contributions de ce manuscrit sont les suivantes : d'abord, nous nous concentrons sur la caractérisation des solutions optimales de ranking multipartite. Une nouvelle condition sur les rapports de vraisemblance est introduite et jugée nécessaire et suffisante pour rendre le problème de ranking multipartite bien posé. Ensuite, nous examinons les critères pour évaluer la fonction de scoring et on propose d'utiliser une généralisation de la courbe ROC nommée la surface ROC pour cela ainsi que le volume induit par cette surface. Pour être utilisée dans les applications, la contrepartie empirique de la surface ROC est étudiée et les résultats sur sa consistance sont établis. Le deuxième thème de recherche est la conception d'algorithmes pour produire des fonctions de scoring. La première procédure est basée sur l'agrégation des fonctions de scoring apprises sur des sous-problèmes de ranking binaire. Dans le but d'agréger les ordres induits par les fonctions de scoring, nous utilisons une approche métrique basée sur le de Kendall pour trouver une fonction de scoring médiane. La deuxième procédure est une méthode récursive, inspirée par l'algorithme TreeRank qui peut être considéré comme une version pondérée de CART. Une simple modification est proposée pour obtenir une approximation de la surface ROC optimale en utilisant une fonction de scoring constante par morceaux. Ces procédures sont comparées aux algorithmes de l'état de l'art pour le ranking multipartite en utilisant des jeux de données réelles et simulées. Les performances mettent en évidence les cas où nos procédures sont bien adaptées, en particulier lorsque la dimension de l'espace des caractéristiques est beaucoup plus grand que le nombre d'étiquettes. Enfin, nous revenons au problème de ranking binaire afin d'établir des vitesses minimax adaptatives de convergence. Ces vitesses sont montrées pour des classes de distributions contrôlées par la complexité de la distribution a posteriori et une condition de faible bruit. La procédure qui permet d'atteindre ces taux est basée sur des estimateurs de type plug-in de la distribution a posteriori et une méthode d'agrégation utilisant des poids exponentiels.
|
102 |
Non-parametric estimation of convex bodies and convex polytopesBrunel, Victor-Emmanuel 04 July 2014 (has links) (PDF)
Dans ce travail, nous nous intéressons à l'estimation d'ensembles convexes dans l'espace Euclidien R^d, en nous penchant sur deux modèles. Dans le premier modèle, nous avons à notre disposition un échantillon de n points aléatoires, indépendants et de même loi, uniforme sur un ensemble convexe inconnu. Le second modèle est un modèle additif de régression, avec bruit sous-gaussien, et dont la fonction de régression est l'indicatrice d'Euler d'un ensemble convexe ici aussi inconnu. Dans le premier modèle, notre objectif est de construire un estimateur du support de la densité des observations, qui soit optimal au sens minimax. Dans le second modèle, l'objectif est double. Il s'agit de construire un estimateur du support de la fonction de régression, ainsi que de décider si le support en question est non vide, c'est-'a-dire si la fonction de régression est effectivement non nulle, ou si le signal observé n'est que du bruit. Dans ces deux modèles, nous nous intéressons plus particulièrement au cas où l'ensemble inconnu est un polytope convexe, dont le nombre de sommets est connu. Si ce nombre est inconnu, nous montrons qu'une procédure adaptative permet de construire un estimateur atteignant la même vitesse asymptotique que dans le cas précédent. Enfin, nous démontrons que ce m$eme estimateur pallie à l'erreur de spécification du modèle, consistant à penser à tort que l'ensemble convexe inconnu est un polytope. Nous démontrons une inégalité de déviation pour le volume de l'enveloppe convexe des observations dans le premier modèle. Nous montrons aussi que cette inégalité implique des bornes optimales sur les moments du volume manquant de cette enveloppe convexe, ainsi que sur les moments du nombre de ses sommets. Enfin, dans le cas unidimensionnel, pour le second modèle, nous donnons la taille asymptotique minimale que doit faire l'ensemble inconnu afin de pouvoir être détecté, et nous proposons une règle de décision, permettant un test consistant du caractère non vide de cet ensemble.
|
103 |
Estimation statistique d'atlas probabiliste avec les données multimodales et son application à la segmentation basée sur l'atlasXu, Hao 31 March 2014 (has links) (PDF)
Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance.
|
104 |
Comportement d'un échantillon sous conditionnement extrême, maximum de vraisemblance sous échantillonnage pondéréCao, Zhansheng 26 November 2012 (has links) (PDF)
Dans le Chapitre 1, nous explorons le comportement joint des variables d'une marche aléatoire (X1, . . . ,Xn) lorsque leur valeur moyenne tend vers l'infini quand n tend vers l'infini. Il est prouvé que toutes ces variables doivent partager la même valeur, ce qui généralise les résultats précédents, dans le cadre de grands dépassements de sommes finies de i.i.d variables aléatoires. Dans le Chapitre 2, nous montrons un théorème de Gibbs conditionnel pour une marche aléatoire (X1, ..,Xn) conditionnée à une déviation extrême. Il est prouvé que lorsque les opérandes ont des queues légères avec une certaine régularité supplémentaire, la distribution asymptotique conditionnelle de X1 peut être approximée par la distribution tiltée en norme de la variation totale, généralisant ainsi le cas classique du LDP. Le troisième Chapitre explore le principe du maximum de vraisemblance dans les modèles paramétriques, dans le contexte du théorème de grandes déviations de Sanov. Le MLE est associé à la minimisation d'un critère spécifique de type divergence, qui se généralise au cas du bootstrap pondéré, où la divergnce est fonction de la distribution des poids. Certaines propriétés de la procédure résultante d'inférence sont présenteés ; l'efficacité de Bahadur de tests est également examinée dans ce contexte.
|
105 |
Contribution à la notion d'autosimilarité et à l'étude des trajectoires de champs aléatoires.Lacaux, Céline 06 December 2012 (has links) (PDF)
Mes travaux portent essentiellement sur des champs aléatoires qui satisfont une propriété d'autosimilarité globale ou locale, éventuellement anisotrope. Au cours de ces dernières années, je me suis concentrée sur l'étude de la régularité des trajectoires de tels champs mais aussi de leur simulation, de l'estimation des paramètres ou encore de certaines propriétés géométriques (dimension d'Hausdorff). J'ai été amenée à introduire de nouvelles notions d'autosimilarité : autosimilarité locale pour des champs indexés par une variété et autosimilarité locale anisotrope. Une partie de mes travaux porte sur des séries de type shot noise (vitesse de convergence, régularité). Ces séries permettent notamment de proposer une méthode de simulation pour les champs fractionnaires ou multifractionnaires. Elles nous ont permis d'obtenir une majoration du module de continuité de champs aléatoires anisotropes stables mais sont aussi utiles pour l'étude de champs plus généraux (champs définis par une série aléatoire conditionnellement sous-gaussienne, champs multi-stables). L'étude de modèles anisotropes est motivée par la modélisation de roches mais aussi de radiographies d'os en vue de l'aide à la détection précoce de l'ostéoporose (projet ANR MATAIM). J'ai aussi abordé des questions plus statistiques : estimations des paramètres, propriété LAN (Local Asymptotic Normality). Enfin, au sein de l'équipe INRIA BIology Genetics and Statistics, je travaille sur des problématiques tournées vers des applications médicales en collaboration avec des automaticiens. J'ai en particulier travaillé sur un algorithme de débruitage en vue d'application à des ECG.
|
106 |
Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populationsSedki, Mohammed 31 October 2012 (has links) (PDF)
Cette thèse propose et étudie deux techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. Dans ce contexte, la vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comporte des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus par cette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et on supposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise une approximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de Del Moral et al. que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveaux d'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simula- tions par rapport à la méthode ABC avec acceptation couramment utilisée.
|
107 |
Estimation non-paramétrique dans les problèmes inverses à opérateur bruitéVareschi, Thomas 06 December 2013 (has links) (PDF)
Cette thèse étudie l'effet de l'imprécision sur un opérateur intervenant dans la résolution d'un problème inverse. La problématique habituelle des problèmes inverses est l'approximation d'un signal d'entrée à partir de son image par un opérateur régularisant. A l'incertitude habituelle contaminant l'observation du signal de sortie, on ajoute cette erreur commise sur l'opérateur que l'on modélise par un processus Gaussien d'une certaine amplitude, potentiellement différente de la précédente. Nous nous intéressons plus particulièrement au cas où l'opérateur en question est un opérateur à noyau, lorsque ce dernier est lui même bruité. Ce modèle recouvre par exemple les cas de la convolution de Fourier périodique, de Laplace/Volterra, ou bien la convolution sphérique. \\Nous développons des procédures statistiques d'estimation dans chacun de ces cas, en traitant de manière adéquate la nouvelle erreur commise sur le noyau selon la forme de la matrice associée à un schéma de Galerkin. Plus précisément, nous étudions le risque quadratique dans le cas où cette dernière est diagonale, diagonale par blocs ou bien triangulaire inférieure et de Toeplitz. Dans chacun de ces cas, nous mettons en évidence de nouvelles vitesses de convergence faisant intervenir de manière explicite les deux paramètres d'incertitude (sur le signal de sortie et sur le noyau) et dont nous prouvons l'optimalité au sens minimax. Enfin, nous étudions spécifiquement le cas de la déconvolution sphérique en mettant à profit les needlets sphériques, sorte d'équivalent d'ondelettes sur la sphère, dans la construction d'une procédure qui traite ce même problème pour un risque en norme Lp.
|
108 |
Lois limites des écarts extrêmes associés aux histogrammes et à diverses statistiques d'ordre dans l'estimation d'une densité de probabilitéBéra, Michel 13 June 1977 (has links) (PDF)
L'étude est associée aux problèmes de lois limites associées à un échantillon (X1,..,Xn). Le chapitre 1 est consacré à certains aspects de la loi multinomiale, et dégage une loi limite sur les valeurs extrêmes de problèmes d'occupation. Il améliore significativement les résultats de P.Revesz (1971-72), et conduit à des lois limites sur l'estimation de la densité dans Rs, par deux méthodes dites d'estimation par histogramme aléatoire. Le chapitre 2 est consacré à la loi conjointe des écarts inter-quantiles, et donne une nouvelle loi limite des extrêmes de ces écarts, généralisant les travaux de G.Tusnady (1974). Le chapitre 3 prolonge les travaux de ce dernier sur l'estimation de la densité par histogramme aléatoire. Le caractère asymptotiquement poissonnien de la loi multinomiale et de la loi de Dirichlet est mis en évidence dans des conditions très générales.
|
109 |
Modèles d'encodage parcimonieux de l'activité cérébrale mesurée par IRM fonctionnelleBakhous, Christine 10 December 2013 (has links) (PDF)
L'imagerie par résonance magnétique fonctionnelle (IRMf) est une technique non invasive permettant l'étude de l'activité cérébrale au travers des changements hémodynamiques associés. Récemment, une technique de détection-estimation conjointe (DEC) a été développée permettant d'alterner (1) la détection de l'activité cérébrale induite par une stimulation ainsi que (2) l'estimation de la fonction de réponse hémodynamique caractérisant la dynamique vasculaire; deux problèmes qui sont généralement traités indépendamment. Cette approche considère une parcellisation a priori du cerveau en zones fonctionnellement homogènes et alterne (1) et (2) sur chacune d'entre elles séparément. De manière standard, l'analyse DEC suppose que le cerveau entier peut être activé par tous les types de stimuli (visuel, auditif, etc.). Cependant la spécialisation fonctionnelle des régions cérébrales montre que l'activité d'une région n'est due qu'à certains types de stimuli. La prise en compte de stimuli non pertinents dans l'analyse, peut dégrader les résultats. La sous-famille des types de stimuli pertinents n'étant pas la même à travers le cerveau une procédure de sélection de modèles serait très coûteuse en temps de calcul. De plus, une telle sélection a priori n'est pas toujours possible surtout dans les cas pathologiques. Ce travail de thèse propose une extension de l'approche DEC permettant la sélection automatique des conditions (types de stimuli) pertinentes selon l'activité cérébrale qu'elles suscitent, cela simultanément à l'analyse et adaptativement à travers les régions cérébrales. Des exemples d'analyses sur des jeux de données simulés et réels, illustrent la capacité de l'approche DEC parcimonieuse proposée à sélectionner les conditions pertinentes ainsi que son intérêt par rapport à l'approche DEC standard.
|
110 |
Valeurs extrêmes : covariables et cadre bivariéSchorgen, Antoine 21 September 2012 (has links) (PDF)
Cette thèse aborde deux sujets peu traités dans la littérature concernant le théorie des valeurs extrêmes : celui des observations en présence de covariables et celui des mesures de dépendance pour des paires d'observations. Dans la première partie de cette thèse, nous avons considéré le cas où la variable d'intérêt est observée simultanément avec une covariable, pouvant être fixe ou aléatoire. Dans ce contexte, l'indice de queue dépend de la covariable et nous avons proposé des estimateurs de ce paramètre dont nous avons étudié les propriétés asymptotiques. Leurs comportements à distance finie ont été validés par simulations. Puis, dans la deuxième partie, nous nous sommes intéressés aux extrêmes multivariés et plus particulièrement à mesurer la dépendance entre les extrêmes. Dans une situation proche de l'indépendance asymptotique, il est très difficile de mesurer cette dépendance et de nouveaux modèles doivent être introduits. Dans ce contexte, nous avons adapté un outil de géostatistique, le madogramme, et nous avons étudié ses propriétés asymptotiques. Ses performances sur simulations et données réelles ont également été exhibées. Cette thèse offre de nombreuses perspectives, tant sur le plan pratique que théorique dont une liste non exhaustive est présentée en conclusion de la thèse.
|
Page generated in 0.0249 seconds