Spelling suggestions: "subject:"[STAT:TH] statistique/théorie""
1 |
Méthodes statistiques pour la mise en correspondance de descripteursCollier, Olivier 02 October 2013 (has links) (PDF)
De nombreuses applications, en vision par ordinateur ou en médecine notamment,ont pour but d'identifier des similarités entre plusieurs images ou signaux. On peut alors détecter des objets, les suivre, ou recouper des prises de vue. Dans tous les cas, les procédures algorithmiques qui traitent les images utilisent une sélection de points-clefs qu'elles essayent ensuite de mettre en correspondance par paire. Elles calculent pour chaque point un descripteur qui le caractérise, le discrimine des autres. Parmi toutes les procédures possibles,la plus utilisée aujourd'hui est SIFT, qui sélectionne les points-clefs, calcule des descripteurs et propose un critère de mise en correspondance globale. Dans une première partie, nous tentons d'améliorer cet algorithme en changeant le descripteur original qui nécessite de trouver l'argument du maximum d'un histogramme : en effet, son calcul est statistiquement instable. Nous devons alors également changer le critère de mise en correspondance de deux descripteurs. Il en résulte un problème de test non paramétrique dans lequel à la fois l'hypothèse nulle et alternative sont composites, et même non paramétriques. Nous utilisons le test du rapport de vraisemblance généralisé afin d'exhiber des procédures de test consistantes, et proposons une étude minimax du problème. Dans une seconde partie, nous nous intéressons à l'optimalité d'une procédure globale de mise en correspondance. Nous énonçons un modèle statistique dans lequel des descripteurs sont présents dans un certain ordre dans une première image, et dans un autre dans une seconde image. La mise en correspondance revient alors à l'estimation d'une permutation. Nous donnons un critère d'optimalité au sens minimax pour les estimateurs. Nous utilisons en particulier la vraisemblance afin de trouver plusieurs estimateurs consistants, et même optimaux sous certaines conditions. Enfin, nous nous sommes intéressés à des aspects pratiques en montrant que nos estimateurs étaient calculables en temps raisonnable, ce qui nous a permis ensuite d'illustrer la hiérarchie de nos estimateurs par des simulations
|
2 |
Développements récents sur l'estimation fonctionnelle par méthodes d'ondelettesChesneau, Christophe 03 April 2014 (has links) (PDF)
A ce jour, l'essentiel de mes travaux s'articule autour de l'estimation de fonctions inconnues émanant de phénomènes aléatoires. La richesse de ces phénomènes combinée avec l'amélioration constante des méthodes d'estimation nourrissent mon intérêt pour le sujet. J'ai toutefois choisi de me spécialiser dans les méthodes d'ondelettes. La principale raison est qu'elles bénéficient d'une grande faculté d'adaptation à la complexité du problème posé, tout en ayant des performances d'estimation remarquables. Cela est présenté dans la première partie de ce rapport. Les trois autres parties concernent trois de mes résultats les plus significatifs. En outre, ils sont applicables à une multitude de modèles statistiques, ouvrant ainsi un large champ d'applications, et améliorent certains aspects de résultats existants.
|
3 |
Modèles à variables latentes pour des données issues de tiling arrays. Applications aux expériences de ChIP-chip et de transcriptome.Bérard, Caroline 30 November 2011 (has links) (PDF)
Les puces tiling arrays sont des puces à haute densité permettant l'exploration des génomes à grande échelle. Elles sont impliquées dans l'étude de l'expression des gènes et de la détection de nouveaux transcrits grâce aux expériences de transcriptome, ainsi que dans l'étude des mécanismes de régulation de l'expression des gènes grâce aux expériences de ChIP-chip. Dans l'objectif d'analyser des données de ChIP-chip et de transcriptome, nous proposons une modélisation fondée sur les modèles à variables latentes, en particulier les modèles de Markov cachés, qui sont des méthodes usuelles de classification non-supervisée. Les caractéristiques biologiques du signal issu des puces tiling arrays telles que la dépendance spatiale des observations le long du génome et l'annotation structurale sont intégrées dans la modélisation. D'autre part, les modèles sont adaptés en fonction de la question biologique et une modélisation est proposée pour chaque type d'expériences. Nous proposons un mélange de régressions pour la comparaison de deux échantillons dont l'un peut être considéré comme un échantillon de référence (ChIP-chip), ainsi qu'un modèle gaussien bidimensionnel avec des contraintes sur la matrice de variance lorsque les deux échantillons jouent des rôles symétriques (transcriptome). Enfin, une modélisation semi-paramétrique autorisant des distributions plus flexibles pour la loi d'émission est envisagée. Dans un objectif de classification, nous proposons un contrôle de faux-positifs dans le cas d'une classification à deux groupes et pour des observations indépendantes. Puis, nous nous intéressons à la classification d'un ensemble d'observations constituant une région d'intérêt, telle que les gènes. Les différents modèles sont illustrés sur des jeux de données réelles de ChIP-chip et de transcriptome issus d'une puce NimbleGen couvrant le génome entier d'Arabidopsis thaliana.
|
4 |
Modélisation du comportement extrême de processus spatio-temporels. Applications en océanographie et météorologie.Raillard, Nicolas 13 December 2011 (has links) (PDF)
Ce travail de thèse porte sur l'étude des extrêmes d'une variable océanique importante dans le cadre des applications: la hauteur significative des vagues. Cette quantité est observée fidèlement par des satellites, mais cette source de donnée produit des données complexes du fait d'une répartition des observations irrégulière, en temps et en espace. Ce problème est primordial dans le cadre de l'étude des extrêmes, car peu de modèles statistiques sont adaptés à de telles données. Deux modèles sont présentés dans ce document. Nous commençons par décrire un modèle d'interpolation basé sur l'estimation des vitesses de déplacement des structures d'états de mer à l'aide de méthodes de filtrage particulaire. Ensuite nous avons mis en place une procédure d'estimation de la structure d'ordre deux du champ déplacé, dans le but d'appliquer une interpolation. Cette procédure a montré une amélioration par rapport aux techniques usuelles, mais une insuffisance pour modéliser les extrêmes. Dans un second temps, nous mettons en oeuvre une procédure pour modéliser les dépassements de seuils d'un processus observé à temps irrégulier ou avec des valeurs manquantes. Nous proposons un modèle basé sur les méthodes de dépassement de seuils multi-variés et les extrêmes de processus, ainsi qu'une méthode d'estimation des paramètres par des techniques de vraisemblance composite. Enfin, nous montrons la convergence de l'estimateur et, à l'aide de simulations ainsi que par une application à des données de hauteurs significatives, nous concluons que la prise en compte de tous les dépassements permet d'améliorer l'estimation des niveaux de retour de même que de la description de la durée des extrêmes.
|
5 |
Méthodes d'apprentissage statistique pour le ranking théorie, algorithmes et applicationsRobbiano, Sylvain 19 June 2013 (has links) (PDF)
Le ranking multipartite est un problème d'apprentissage statistique qui consiste à ordonner les observations qui appartiennent à un espace de grande dimension dans le même ordre que les labels, de sorte que les observations avec le label le plus élevé apparaissent en haut de la liste. Cette thèse vise à comprendre la nature probabiliste du problème de ranking multipartite afin d'obtenir des garanties théoriques pour les algorithmes de ranking. Dans ce cadre, la sortie d'un algorithme de ranking prend la forme d'une fonction de scoring, une fonction qui envoie l'espace des observations sur la droite réelle et l'ordre final est construit en utilisant l'ordre induit par la droite réelle. Les contributions de ce manuscrit sont les suivantes : d'abord, nous nous concentrons sur la caractérisation des solutions optimales de ranking multipartite. Une nouvelle condition sur les rapports de vraisemblance est introduite et jugée nécessaire et suffisante pour rendre le problème de ranking multipartite bien posé. Ensuite, nous examinons les critères pour évaluer la fonction de scoring et on propose d'utiliser une généralisation de la courbe ROC nommée la surface ROC pour cela ainsi que le volume induit par cette surface. Pour être utilisée dans les applications, la contrepartie empirique de la surface ROC est étudiée et les résultats sur sa consistance sont établis. Le deuxième thème de recherche est la conception d'algorithmes pour produire des fonctions de scoring. La première procédure est basée sur l'agrégation des fonctions de scoring apprises sur des sous-problèmes de ranking binaire. Dans le but d'agréger les ordres induits par les fonctions de scoring, nous utilisons une approche métrique basée sur le de Kendall pour trouver une fonction de scoring médiane. La deuxième procédure est une méthode récursive, inspirée par l'algorithme TreeRank qui peut être considéré comme une version pondérée de CART. Une simple modification est proposée pour obtenir une approximation de la surface ROC optimale en utilisant une fonction de scoring constante par morceaux. Ces procédures sont comparées aux algorithmes de l'état de l'art pour le ranking multipartite en utilisant des jeux de données réelles et simulées. Les performances mettent en évidence les cas où nos procédures sont bien adaptées, en particulier lorsque la dimension de l'espace des caractéristiques est beaucoup plus grand que le nombre d'étiquettes. Enfin, nous revenons au problème de ranking binaire afin d'établir des vitesses minimax adaptatives de convergence. Ces vitesses sont montrées pour des classes de distributions contrôlées par la complexité de la distribution a posteriori et une condition de faible bruit. La procédure qui permet d'atteindre ces taux est basée sur des estimateurs de type plug-in de la distribution a posteriori et une méthode d'agrégation utilisant des poids exponentiels.
|
6 |
Non-parametric estimation of convex bodies and convex polytopesBrunel, Victor-Emmanuel 04 July 2014 (has links) (PDF)
Dans ce travail, nous nous intéressons à l'estimation d'ensembles convexes dans l'espace Euclidien R^d, en nous penchant sur deux modèles. Dans le premier modèle, nous avons à notre disposition un échantillon de n points aléatoires, indépendants et de même loi, uniforme sur un ensemble convexe inconnu. Le second modèle est un modèle additif de régression, avec bruit sous-gaussien, et dont la fonction de régression est l'indicatrice d'Euler d'un ensemble convexe ici aussi inconnu. Dans le premier modèle, notre objectif est de construire un estimateur du support de la densité des observations, qui soit optimal au sens minimax. Dans le second modèle, l'objectif est double. Il s'agit de construire un estimateur du support de la fonction de régression, ainsi que de décider si le support en question est non vide, c'est-'a-dire si la fonction de régression est effectivement non nulle, ou si le signal observé n'est que du bruit. Dans ces deux modèles, nous nous intéressons plus particulièrement au cas où l'ensemble inconnu est un polytope convexe, dont le nombre de sommets est connu. Si ce nombre est inconnu, nous montrons qu'une procédure adaptative permet de construire un estimateur atteignant la même vitesse asymptotique que dans le cas précédent. Enfin, nous démontrons que ce m$eme estimateur pallie à l'erreur de spécification du modèle, consistant à penser à tort que l'ensemble convexe inconnu est un polytope. Nous démontrons une inégalité de déviation pour le volume de l'enveloppe convexe des observations dans le premier modèle. Nous montrons aussi que cette inégalité implique des bornes optimales sur les moments du volume manquant de cette enveloppe convexe, ainsi que sur les moments du nombre de ses sommets. Enfin, dans le cas unidimensionnel, pour le second modèle, nous donnons la taille asymptotique minimale que doit faire l'ensemble inconnu afin de pouvoir être détecté, et nous proposons une règle de décision, permettant un test consistant du caractère non vide de cet ensemble.
|
7 |
Estimation statistique d'atlas probabiliste avec les données multimodales et son application à la segmentation basée sur l'atlasXu, Hao 31 March 2014 (has links) (PDF)
Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance.
|
8 |
Comportement d'un échantillon sous conditionnement extrême, maximum de vraisemblance sous échantillonnage pondéréCao, Zhansheng 26 November 2012 (has links) (PDF)
Dans le Chapitre 1, nous explorons le comportement joint des variables d'une marche aléatoire (X1, . . . ,Xn) lorsque leur valeur moyenne tend vers l'infini quand n tend vers l'infini. Il est prouvé que toutes ces variables doivent partager la même valeur, ce qui généralise les résultats précédents, dans le cadre de grands dépassements de sommes finies de i.i.d variables aléatoires. Dans le Chapitre 2, nous montrons un théorème de Gibbs conditionnel pour une marche aléatoire (X1, ..,Xn) conditionnée à une déviation extrême. Il est prouvé que lorsque les opérandes ont des queues légères avec une certaine régularité supplémentaire, la distribution asymptotique conditionnelle de X1 peut être approximée par la distribution tiltée en norme de la variation totale, généralisant ainsi le cas classique du LDP. Le troisième Chapitre explore le principe du maximum de vraisemblance dans les modèles paramétriques, dans le contexte du théorème de grandes déviations de Sanov. Le MLE est associé à la minimisation d'un critère spécifique de type divergence, qui se généralise au cas du bootstrap pondéré, où la divergnce est fonction de la distribution des poids. Certaines propriétés de la procédure résultante d'inférence sont présenteés ; l'efficacité de Bahadur de tests est également examinée dans ce contexte.
|
9 |
Contribution à la notion d'autosimilarité et à l'étude des trajectoires de champs aléatoires.Lacaux, Céline 06 December 2012 (has links) (PDF)
Mes travaux portent essentiellement sur des champs aléatoires qui satisfont une propriété d'autosimilarité globale ou locale, éventuellement anisotrope. Au cours de ces dernières années, je me suis concentrée sur l'étude de la régularité des trajectoires de tels champs mais aussi de leur simulation, de l'estimation des paramètres ou encore de certaines propriétés géométriques (dimension d'Hausdorff). J'ai été amenée à introduire de nouvelles notions d'autosimilarité : autosimilarité locale pour des champs indexés par une variété et autosimilarité locale anisotrope. Une partie de mes travaux porte sur des séries de type shot noise (vitesse de convergence, régularité). Ces séries permettent notamment de proposer une méthode de simulation pour les champs fractionnaires ou multifractionnaires. Elles nous ont permis d'obtenir une majoration du module de continuité de champs aléatoires anisotropes stables mais sont aussi utiles pour l'étude de champs plus généraux (champs définis par une série aléatoire conditionnellement sous-gaussienne, champs multi-stables). L'étude de modèles anisotropes est motivée par la modélisation de roches mais aussi de radiographies d'os en vue de l'aide à la détection précoce de l'ostéoporose (projet ANR MATAIM). J'ai aussi abordé des questions plus statistiques : estimations des paramètres, propriété LAN (Local Asymptotic Normality). Enfin, au sein de l'équipe INRIA BIology Genetics and Statistics, je travaille sur des problématiques tournées vers des applications médicales en collaboration avec des automaticiens. J'ai en particulier travaillé sur un algorithme de débruitage en vue d'application à des ECG.
|
10 |
Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populationsSedki, Mohammed 31 October 2012 (has links) (PDF)
Cette thèse propose et étudie deux techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. Dans ce contexte, la vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comporte des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus par cette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et on supposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise une approximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de Del Moral et al. que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveaux d'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simula- tions par rapport à la méthode ABC avec acceptation couramment utilisée.
|
Page generated in 0.0857 seconds