• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 504
  • 220
  • 99
  • 4
  • 3
  • 1
  • Tagged with
  • 828
  • 342
  • 198
  • 126
  • 122
  • 120
  • 109
  • 95
  • 91
  • 90
  • 89
  • 83
  • 80
  • 76
  • 74
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

Apprentissage statistique multi-tâches

Solnon, Matthieu 25 November 2013 (has links) (PDF)
Cette thèse a pour objet la construction, la calibration et l'étude d'estimateurs multi-tâches, dans un cadre fréquentiste non paramétrique et non asymptotique. Nous nous plaçons dans le cadre de la régression ridge à noyau et y étendons les méthodes existantes de régression multi-tâches. La question clef est la calibration d'un paramètre de régularisation matriciel, qui encode la similarité entre les tâches. Nous proposons une méthode de calibration de ce paramètre, fondée sur l'estimation de la matrice de covariance du bruit entre les tâches. Nous donnons ensuite pour l'estimateur obtenu des garanties d'optimalité, via une inégalité oracle, puis vérifions son comportement sur des exemples simulés. Nous obtenons par ailleurs un encadrement précis des risques des estimateurs oracles multi-tâches et mono-tâche dans certains cas. Cela nous permet de dégager plusieurs situations intéressantes, où l'oracle multi-tâches est plus efficace que l'oracle mono-tâche, ou vice versa. Cela nous permet aussi de nous assurer que l'inégalité oracle force l'estimateur multi-tâches à avoir un risque inférieur à l'estimateur mono-tâche dans les cas étudiés. Le comportement des oracles multi-tâches et mono-tâche est vérifié sur des exemples simulés.
102

Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire.

Giacofci, Madison 22 October 2013 (has links) (PDF)
Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte.
103

Modèles hiérarchiques et processus ponctuels spatio-temporels - Applications en épidémiologie et en sismologie

Valmy, Larissa 05 November 2012 (has links) (PDF)
Les processus ponctuels sont souvent utilisés comme modèles de répartitions spatiales ou spatio-temporelles d'occurrences. Dans cette thèse, nous nous intéressons tout d'abord à des processus de Cox dirigés par un processus caché associé à un processus de Dirichlet. Ce modèle correspond à des occurrences cachées influençant l'intensité stochastique des occurrences observées. Nous généralisons la notion de " Shot noise Cox process " introduite par Moller et développons le traitement bayésien par un échantillonneur de Gibbs combiné à un algorithme de Metropolis-Hastings. Nous montrons que cette méthode MCMC est à sauts réversibles. Le modèle prend en compte, en effet, un nombre aléatoire de contributions cachées influençant l'intensité du processus ponctuel observé donc a un espace paramétrique de dimension variable. Nous focalisons l'inférence statistique sur l'estimation de la valeur espérée de chaque contribution cachée, le nombre espéré de contributions cachées, le degré d'influence spatiale de ces contributions et leur degré de corrélation. Le test d'égalité des contributions et celui de leur indépendance sont ainsi développés. L'utilité en épidémiologie et en écologie est alors démontrée à partir de données de Rubus fruticosa, Ibicella lutea et de mortalité dans les cantons de Georgia, USA. En termes de données observées, deux situations sont considérées: premièrement, les positions spatiales des occurrences sont observées entre plusieurs paires de dates consécutives; deuxièmement, des comptages sont effectués, au cours d'une période fixée, dans des unités d'échantillonnage spatiales. D'autre part, nous nous intéressons aux processus ponctuels à mémoire introduits par Kagan, Ogata et Vere-Jones, précurseurs de la statistique sismologique. En effet, les processus ponctuels spatio-temporels ont une place importante dans l'étude des catalogues sismiques puisque ces derniers sont généralement constitués d'événements sismiques datés et géo-référencés. Nous avons étudié un modèle ETAS (Epidemic Type Aftershock Sequence) avec une intensité d'arrière-plan indépendante du temps et plusieurs fonctions déclenchantes permettant d'intégrer les événements antérieurs récents. Cette approche est utilisée pour étudier la sismicité de l'arc des Petites Antilles. Une étude comparative des modèles Gamma, Weibull, Log-Normal et loi d'Omori modifiée pour les fonctions déclenchantes est menée. Nous montrons que la loi d'Omori modifiée ne s'ajuste pas aux données sismiques des Petites Antilles et la fonction déclenchante la plus adaptée est le modèle de Weibull. Cela implique que le temps d'attente entre répliques dans la zone des Petites Antilles est plus faible que celui des régions à sismicité décrite par la loi d'Omori modifiée. Autrement dit, l'agrégation des répliques après un événement majeur est plus prononcée dans la zone des Petites Antilles. La possibilité d'inclure une intensité d'arrière-plan suivant un processus de Dirichlet centré sur un processus spatial log-gaussien est discutée.
104

Méthodes d'apprentissage statistique pour le ranking théorie, algorithmes et applications

Robbiano, Sylvain 19 June 2013 (has links) (PDF)
Le ranking multipartite est un problème d'apprentissage statistique qui consiste à ordonner les observations qui appartiennent à un espace de grande dimension dans le même ordre que les labels, de sorte que les observations avec le label le plus élevé apparaissent en haut de la liste. Cette thèse vise à comprendre la nature probabiliste du problème de ranking multipartite afin d'obtenir des garanties théoriques pour les algorithmes de ranking. Dans ce cadre, la sortie d'un algorithme de ranking prend la forme d'une fonction de scoring, une fonction qui envoie l'espace des observations sur la droite réelle et l'ordre final est construit en utilisant l'ordre induit par la droite réelle. Les contributions de ce manuscrit sont les suivantes : d'abord, nous nous concentrons sur la caractérisation des solutions optimales de ranking multipartite. Une nouvelle condition sur les rapports de vraisemblance est introduite et jugée nécessaire et suffisante pour rendre le problème de ranking multipartite bien posé. Ensuite, nous examinons les critères pour évaluer la fonction de scoring et on propose d'utiliser une généralisation de la courbe ROC nommée la surface ROC pour cela ainsi que le volume induit par cette surface. Pour être utilisée dans les applications, la contrepartie empirique de la surface ROC est étudiée et les résultats sur sa consistance sont établis. Le deuxième thème de recherche est la conception d'algorithmes pour produire des fonctions de scoring. La première procédure est basée sur l'agrégation des fonctions de scoring apprises sur des sous-problèmes de ranking binaire. Dans le but d'agréger les ordres induits par les fonctions de scoring, nous utilisons une approche métrique basée sur le de Kendall pour trouver une fonction de scoring médiane. La deuxième procédure est une méthode récursive, inspirée par l'algorithme TreeRank qui peut être considéré comme une version pondérée de CART. Une simple modification est proposée pour obtenir une approximation de la surface ROC optimale en utilisant une fonction de scoring constante par morceaux. Ces procédures sont comparées aux algorithmes de l'état de l'art pour le ranking multipartite en utilisant des jeux de données réelles et simulées. Les performances mettent en évidence les cas où nos procédures sont bien adaptées, en particulier lorsque la dimension de l'espace des caractéristiques est beaucoup plus grand que le nombre d'étiquettes. Enfin, nous revenons au problème de ranking binaire afin d'établir des vitesses minimax adaptatives de convergence. Ces vitesses sont montrées pour des classes de distributions contrôlées par la complexité de la distribution a posteriori et une condition de faible bruit. La procédure qui permet d'atteindre ces taux est basée sur des estimateurs de type plug-in de la distribution a posteriori et une méthode d'agrégation utilisant des poids exponentiels.
105

Non-parametric estimation of convex bodies and convex polytopes

Brunel, Victor-Emmanuel 04 July 2014 (has links) (PDF)
Dans ce travail, nous nous intéressons à l'estimation d'ensembles convexes dans l'espace Euclidien R^d, en nous penchant sur deux modèles. Dans le premier modèle, nous avons à notre disposition un échantillon de n points aléatoires, indépendants et de même loi, uniforme sur un ensemble convexe inconnu. Le second modèle est un modèle additif de régression, avec bruit sous-gaussien, et dont la fonction de régression est l'indicatrice d'Euler d'un ensemble convexe ici aussi inconnu. Dans le premier modèle, notre objectif est de construire un estimateur du support de la densité des observations, qui soit optimal au sens minimax. Dans le second modèle, l'objectif est double. Il s'agit de construire un estimateur du support de la fonction de régression, ainsi que de décider si le support en question est non vide, c'est-'a-dire si la fonction de régression est effectivement non nulle, ou si le signal observé n'est que du bruit. Dans ces deux modèles, nous nous intéressons plus particulièrement au cas où l'ensemble inconnu est un polytope convexe, dont le nombre de sommets est connu. Si ce nombre est inconnu, nous montrons qu'une procédure adaptative permet de construire un estimateur atteignant la même vitesse asymptotique que dans le cas précédent. Enfin, nous démontrons que ce m$eme estimateur pallie à l'erreur de spécification du modèle, consistant à penser à tort que l'ensemble convexe inconnu est un polytope. Nous démontrons une inégalité de déviation pour le volume de l'enveloppe convexe des observations dans le premier modèle. Nous montrons aussi que cette inégalité implique des bornes optimales sur les moments du volume manquant de cette enveloppe convexe, ainsi que sur les moments du nombre de ses sommets. Enfin, dans le cas unidimensionnel, pour le second modèle, nous donnons la taille asymptotique minimale que doit faire l'ensemble inconnu afin de pouvoir être détecté, et nous proposons une règle de décision, permettant un test consistant du caractère non vide de cet ensemble.
106

Estimation statistique d'atlas probabiliste avec les données multimodales et son application à la segmentation basée sur l'atlas

Xu, Hao 31 March 2014 (has links) (PDF)
Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance.
107

Comportement d'un échantillon sous conditionnement extrême, maximum de vraisemblance sous échantillonnage pondéré

Cao, Zhansheng 26 November 2012 (has links) (PDF)
Dans le Chapitre 1, nous explorons le comportement joint des variables d'une marche aléatoire (X1, . . . ,Xn) lorsque leur valeur moyenne tend vers l'infini quand n tend vers l'infini. Il est prouvé que toutes ces variables doivent partager la même valeur, ce qui généralise les résultats précédents, dans le cadre de grands dépassements de sommes finies de i.i.d variables aléatoires. Dans le Chapitre 2, nous montrons un théorème de Gibbs conditionnel pour une marche aléatoire (X1, ..,Xn) conditionnée à une déviation extrême. Il est prouvé que lorsque les opérandes ont des queues légères avec une certaine régularité supplémentaire, la distribution asymptotique conditionnelle de X1 peut être approximée par la distribution tiltée en norme de la variation totale, généralisant ainsi le cas classique du LDP. Le troisième Chapitre explore le principe du maximum de vraisemblance dans les modèles paramétriques, dans le contexte du théorème de grandes déviations de Sanov. Le MLE est associé à la minimisation d'un critère spécifique de type divergence, qui se généralise au cas du bootstrap pondéré, où la divergnce est fonction de la distribution des poids. Certaines propriétés de la procédure résultante d'inférence sont présenteés ; l'efficacité de Bahadur de tests est également examinée dans ce contexte.
108

Contribution à la notion d'autosimilarité et à l'étude des trajectoires de champs aléatoires.

Lacaux, Céline 06 December 2012 (has links) (PDF)
Mes travaux portent essentiellement sur des champs aléatoires qui satisfont une propriété d'autosimilarité globale ou locale, éventuellement anisotrope. Au cours de ces dernières années, je me suis concentrée sur l'étude de la régularité des trajectoires de tels champs mais aussi de leur simulation, de l'estimation des paramètres ou encore de certaines propriétés géométriques (dimension d'Hausdorff). J'ai été amenée à introduire de nouvelles notions d'autosimilarité : autosimilarité locale pour des champs indexés par une variété et autosimilarité locale anisotrope. Une partie de mes travaux porte sur des séries de type shot noise (vitesse de convergence, régularité). Ces séries permettent notamment de proposer une méthode de simulation pour les champs fractionnaires ou multifractionnaires. Elles nous ont permis d'obtenir une majoration du module de continuité de champs aléatoires anisotropes stables mais sont aussi utiles pour l'étude de champs plus généraux (champs définis par une série aléatoire conditionnellement sous-gaussienne, champs multi-stables). L'étude de modèles anisotropes est motivée par la modélisation de roches mais aussi de radiographies d'os en vue de l'aide à la détection précoce de l'ostéoporose (projet ANR MATAIM). J'ai aussi abordé des questions plus statistiques : estimations des paramètres, propriété LAN (Local Asymptotic Normality). Enfin, au sein de l'équipe INRIA BIology Genetics and Statistics, je travaille sur des problématiques tournées vers des applications médicales en collaboration avec des automaticiens. J'ai en particulier travaillé sur un algorithme de débruitage en vue d'application à des ECG.
109

Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populations

Sedki, Mohammed 31 October 2012 (has links) (PDF)
Cette thèse propose et étudie deux techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. Dans ce contexte, la vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comporte des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus par cette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et on supposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise une approximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de Del Moral et al. que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveaux d'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simula- tions par rapport à la méthode ABC avec acceptation couramment utilisée.
110

Estimation non-paramétrique dans les problèmes inverses à opérateur bruité

Vareschi, Thomas 06 December 2013 (has links) (PDF)
Cette thèse étudie l'effet de l'imprécision sur un opérateur intervenant dans la résolution d'un problème inverse. La problématique habituelle des problèmes inverses est l'approximation d'un signal d'entrée à partir de son image par un opérateur régularisant. A l'incertitude habituelle contaminant l'observation du signal de sortie, on ajoute cette erreur commise sur l'opérateur que l'on modélise par un processus Gaussien d'une certaine amplitude, potentiellement différente de la précédente. Nous nous intéressons plus particulièrement au cas où l'opérateur en question est un opérateur à noyau, lorsque ce dernier est lui même bruité. Ce modèle recouvre par exemple les cas de la convolution de Fourier périodique, de Laplace/Volterra, ou bien la convolution sphérique. \\Nous développons des procédures statistiques d'estimation dans chacun de ces cas, en traitant de manière adéquate la nouvelle erreur commise sur le noyau selon la forme de la matrice associée à un schéma de Galerkin. Plus précisément, nous étudions le risque quadratique dans le cas où cette dernière est diagonale, diagonale par blocs ou bien triangulaire inférieure et de Toeplitz. Dans chacun de ces cas, nous mettons en évidence de nouvelles vitesses de convergence faisant intervenir de manière explicite les deux paramètres d'incertitude (sur le signal de sortie et sur le noyau) et dont nous prouvons l'optimalité au sens minimax. Enfin, nous étudions spécifiquement le cas de la déconvolution sphérique en mettant à profit les needlets sphériques, sorte d'équivalent d'ondelettes sur la sphère, dans la construction d'une procédure qui traite ce même problème pour un risque en norme Lp.

Page generated in 0.0635 seconds