Global ETD Search

21	Modèles à variables latentes pour des données issues de tiling arrays. Applications aux expériences de ChIP-chip et de transcriptome. Bérard, Caroline 30 November 2011 (has links) (PDF) Les puces tiling arrays sont des puces à haute densité permettant l'exploration des génomes à grande échelle. Elles sont impliquées dans l'étude de l'expression des gènes et de la détection de nouveaux transcrits grâce aux expériences de transcriptome, ainsi que dans l'étude des mécanismes de régulation de l'expression des gènes grâce aux expériences de ChIP-chip. Dans l'objectif d'analyser des données de ChIP-chip et de transcriptome, nous proposons une modélisation fondée sur les modèles à variables latentes, en particulier les modèles de Markov cachés, qui sont des méthodes usuelles de classification non-supervisée. Les caractéristiques biologiques du signal issu des puces tiling arrays telles que la dépendance spatiale des observations le long du génome et l'annotation structurale sont intégrées dans la modélisation. D'autre part, les modèles sont adaptés en fonction de la question biologique et une modélisation est proposée pour chaque type d'expériences. Nous proposons un mélange de régressions pour la comparaison de deux échantillons dont l'un peut être considéré comme un échantillon de référence (ChIP-chip), ainsi qu'un modèle gaussien bidimensionnel avec des contraintes sur la matrice de variance lorsque les deux échantillons jouent des rôles symétriques (transcriptome). Enfin, une modélisation semi-paramétrique autorisant des distributions plus flexibles pour la loi d'émission est envisagée. Dans un objectif de classification, nous proposons un contrôle de faux-positifs dans le cas d'une classification à deux groupes et pour des observations indépendantes. Puis, nous nous intéressons à la classification d'un ensemble d'observations constituant une région d'intérêt, telle que les gènes. Les différents modèles sont illustrés sur des jeux de données réelles de ChIP-chip et de transcriptome issus d'une puce NimbleGen couvrant le génome entier d'Arabidopsis thaliana. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Classification non supervisée HMM Tiling arrays
22	Modélisation du comportement extrême de processus spatio-temporels. Applications en océanographie et météorologie. Raillard, Nicolas 13 December 2011 (has links) (PDF) Ce travail de thèse porte sur l'étude des extrêmes d'une variable océanique importante dans le cadre des applications: la hauteur significative des vagues. Cette quantité est observée fidèlement par des satellites, mais cette source de donnée produit des données complexes du fait d'une répartition des observations irrégulière, en temps et en espace. Ce problème est primordial dans le cadre de l'étude des extrêmes, car peu de modèles statistiques sont adaptés à de telles données. Deux modèles sont présentés dans ce document. Nous commençons par décrire un modèle d'interpolation basé sur l'estimation des vitesses de déplacement des structures d'états de mer à l'aide de méthodes de filtrage particulaire. Ensuite nous avons mis en place une procédure d'estimation de la structure d'ordre deux du champ déplacé, dans le but d'appliquer une interpolation. Cette procédure a montré une amélioration par rapport aux techniques usuelles, mais une insuffisance pour modéliser les extrêmes. Dans un second temps, nous mettons en oeuvre une procédure pour modéliser les dépassements de seuils d'un processus observé à temps irrégulier ou avec des valeurs manquantes. Nous proposons un modèle basé sur les méthodes de dépassement de seuils multi-variés et les extrêmes de processus, ainsi qu'une méthode d'estimation des paramètres par des techniques de vraisemblance composite. Enfin, nous montrons la convergence de l'estimateur et, à l'aide de simulations ainsi que par une application à des données de hauteurs significatives, nous concluons que la prise en compte de tous les dépassements permet d'améliorer l'estimation des niveaux de retour de même que de la description de la durée des extrêmes. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Statistique Extrêmes Statistique spatiale Statistiques appliquées
23	Estimation de régularité locale Servien, Rémi 12 March 2010 (has links) (PDF) L'objectif de cette thèse est d'étudier le comportement local d'une mesure de probabilité, notamment au travers d'un indice de régularité locale. Dans la première partie, nous établissons la normalité asymptotique de l'estimateur des kn plus proches voisins de la densité et de l'histogramme. Dans la deuxième, nous définissons un estimateur du mode sous des hypothèses affaiblies. Nous montrons que l'indice de régularité intervient dans ces deux problèmes. Enfin, nous construisons dans une troisième partie différents estimateurs pour l'indice de régularité à partir d'estimateurs de la fonction de répartition, dont nous réalisons une revue bibliographique. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory Local regularity index Probability measure Nonparametric estimation Mode estimators Distribution function estimators Asymptotic normality Nearest neighbor estimate
24	Méthodes d'apprentissage statistique pour le ranking théorie, algorithmes et applications Robbiano, Sylvain 19 June 2013 (has links) (PDF) Le ranking multipartite est un problème d'apprentissage statistique qui consiste à ordonner les observations qui appartiennent à un espace de grande dimension dans le même ordre que les labels, de sorte que les observations avec le label le plus élevé apparaissent en haut de la liste. Cette thèse vise à comprendre la nature probabiliste du problème de ranking multipartite afin d'obtenir des garanties théoriques pour les algorithmes de ranking. Dans ce cadre, la sortie d'un algorithme de ranking prend la forme d'une fonction de scoring, une fonction qui envoie l'espace des observations sur la droite réelle et l'ordre final est construit en utilisant l'ordre induit par la droite réelle. Les contributions de ce manuscrit sont les suivantes : d'abord, nous nous concentrons sur la caractérisation des solutions optimales de ranking multipartite. Une nouvelle condition sur les rapports de vraisemblance est introduite et jugée nécessaire et suffisante pour rendre le problème de ranking multipartite bien posé. Ensuite, nous examinons les critères pour évaluer la fonction de scoring et on propose d'utiliser une généralisation de la courbe ROC nommée la surface ROC pour cela ainsi que le volume induit par cette surface. Pour être utilisée dans les applications, la contrepartie empirique de la surface ROC est étudiée et les résultats sur sa consistance sont établis. Le deuxième thème de recherche est la conception d'algorithmes pour produire des fonctions de scoring. La première procédure est basée sur l'agrégation des fonctions de scoring apprises sur des sous-problèmes de ranking binaire. Dans le but d'agréger les ordres induits par les fonctions de scoring, nous utilisons une approche métrique basée sur le de Kendall pour trouver une fonction de scoring médiane. La deuxième procédure est une méthode récursive, inspirée par l'algorithme TreeRank qui peut être considéré comme une version pondérée de CART. Une simple modification est proposée pour obtenir une approximation de la surface ROC optimale en utilisant une fonction de scoring constante par morceaux. Ces procédures sont comparées aux algorithmes de l'état de l'art pour le ranking multipartite en utilisant des jeux de données réelles et simulées. Les performances mettent en évidence les cas où nos procédures sont bien adaptées, en particulier lorsque la dimension de l'espace des caractéristiques est beaucoup plus grand que le nombre d'étiquettes. Enfin, nous revenons au problème de ranking binaire afin d'établir des vitesses minimax adaptatives de convergence. Ces vitesses sont montrées pour des classes de distributions contrôlées par la complexité de la distribution a posteriori et une condition de faible bruit. La procédure qui permet d'atteindre ces taux est basée sur des estimateurs de type plug-in de la distribution a posteriori et une méthode d'agrégation utilisant des poids exponentiels. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Ranking Multipartite Surface ROC tau de Kendall Arbres de Décision Agrégation Vitesses Minimax
25	Non-parametric estimation of convex bodies and convex polytopes Brunel, Victor-Emmanuel 04 July 2014 (has links) (PDF) Dans ce travail, nous nous intéressons à l'estimation d'ensembles convexes dans l'espace Euclidien R^d, en nous penchant sur deux modèles. Dans le premier modèle, nous avons à notre disposition un échantillon de n points aléatoires, indépendants et de même loi, uniforme sur un ensemble convexe inconnu. Le second modèle est un modèle additif de régression, avec bruit sous-gaussien, et dont la fonction de régression est l'indicatrice d'Euler d'un ensemble convexe ici aussi inconnu. Dans le premier modèle, notre objectif est de construire un estimateur du support de la densité des observations, qui soit optimal au sens minimax. Dans le second modèle, l'objectif est double. Il s'agit de construire un estimateur du support de la fonction de régression, ainsi que de décider si le support en question est non vide, c'est-'a-dire si la fonction de régression est effectivement non nulle, ou si le signal observé n'est que du bruit. Dans ces deux modèles, nous nous intéressons plus particulièrement au cas où l'ensemble inconnu est un polytope convexe, dont le nombre de sommets est connu. Si ce nombre est inconnu, nous montrons qu'une procédure adaptative permet de construire un estimateur atteignant la même vitesse asymptotique que dans le cas précédent. Enfin, nous démontrons que ce m$eme estimateur pallie à l'erreur de spécification du modèle, consistant à penser à tort que l'ensemble convexe inconnu est un polytope. Nous démontrons une inégalité de déviation pour le volume de l'enveloppe convexe des observations dans le premier modèle. Nous montrons aussi que cette inégalité implique des bornes optimales sur les moments du volume manquant de cette enveloppe convexe, ainsi que sur les moments du nombre de ses sommets. Enfin, dans le cas unidimensionnel, pour le second modèle, nous donnons la taille asymptotique minimale que doit faire l'ensemble inconnu afin de pouvoir être détecté, et nous proposons une règle de décision, permettant un test consistant du caractère non vide de cet ensemble. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Adaptive estimation convex bodies density support detection estimation polytopes regression
26	Médianes de mesures de probabilité dans les variétés riemanniennes et applications à la détection de cibles radar Yang, Le 15 December 2011 (has links) (PDF) Dans cette thèse, nous étudierons les médianes d'une mesure de probabilité dans une variété riemannienne. Dans un premier temps, l'existence et l'unicité des médianes locales seront montrées. Afin de calculer les médianes aux cas pratiques, nous proposerons aussi un algorithme de sous-gradient et prouverons sa convergence. Ensuite, les médianes de Fréchet seront étudiées. Nous montrerons leur cohérence statistique et donnerons des estimations quantitatives de leur robustesse à l'aide de courbures. De plus, nous montrerons que, dans les variétés riemanniennes compactes, les médianes de Fréchet de données génériques sont toujours uniques. Des algorithmes stochastiques et déterministes seront proposés pour calculer les p-moyennes de Fréchet dans les variétés riemanniennes. Un lien entre les médianes et les problèmes de points fixes sera aussi montré. Finalement, nous appliquerons les médiane et la géométrie riemannienne des matrices de covariance Toeplitz à la détection de cible radar. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory médiane moyenne statistiques robustes données sphériques variétés Riemanniennes théorème du point fixe matrices de Toeplitz
27	Modélisation dynamique de systèmes complexes pour le calcul de grandeurs fiabilistes et l'optimisation de la maintenance Lair, William 18 November 2011 (has links) (PDF) L'objectif de cette thèse est de proposer une méthode permettant d'optimiser la stratégie de maintenance d'un système multi-composants. Cette nouvelle stratégie doit être adaptée aux conditions d'utilisation et aux contraintes budgétaires et sécuritaires. Le vieillissement des composants et la complexité des stratégies de maintenance étudiées nous obligent à avoir recours à de nouveaux modèles probabilistes afin de répondre à la problématique. Nous utilisons un processus stochastique issu de la Fiabilité Dynamique nommé processus markovien déterministe par morceaux (Piecewise Deterministic Markov Process ou PDMP). L'évaluation des quantités d'intérêt (fiabilité, nombre moyen de pannes...) est ici réalisée à l'aide d'un algorithme déterministe de type volumes finis. L'utilisation de ce type d'algorithme, dans ce cadre d'application, présente des difficultés informatiques dues à la place mémoire. Nous proposons plusieurs méthodes pour repousser ces difficultés. L'optimisation d'un plan de maintenance est ensuite effectuée à l'aide d'un algorithme de recuit simulé. Cette méthodologie a été adaptée à deux systèmes ferroviaires utilisés par la SNCF, l'un issu de l'infrastructure, l'autre du matériel roulant. [MATH:MATH_PR] Mathematics/Probability [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory fiabilité schéma de volumes finis maintenance
28	Méthodes d'apprentissage statistique pour le scoring Depecker, Marine 10 December 2010 (has links) (PDF) Cette thèse porte sur le développement d'une méthode non-paramétrique pour l'apprentissage supervisé de règles d'ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l'espace des observations et généralise la notion d'arbre de décision au problème de l'ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d'apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l'algorithme, de scinder l'espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l'ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l'instabilité des arbres d'ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d'agrégation de règles de prédiction ré-échantillonnées : le bagging (Breiman, 1996) et les forêts aléatoires (Random Forests, Breiman, 2001). Une étude empirique comparative entre différentes configurations de l'algorithme et quelques méthodes de l'état de l'art est présentée, ainsi que l'application à la problématique industrielle de l'objectivation des prestations d'un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d'homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel. [INFO:INFO_LG] Computer Science/Learning [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory ordonnancement ranking scoring arbre de décision courbe COR élagage ré-échantillonnage agrégation
29	Etude des réponses des assemblages de poissons aux variations de l'environnement par modélisation hiérarchique bayésienne : Application aux juvéniles de cyprinidés du Haut-Rhône Piffady, Jérémy 05 November 2010 (has links) (PDF) La compréhension des déterminismes des communautés de poissons et de leurs variations est un enjeu majeur, tant en écologie qu'en bioindication. Dans ce travail doctoral, nous avons mis en place des outils de statistiques avancées afin d'identifier les aspects des régimes thermique et hydrique, constituants essentiels de l'environnement naturel des poissons, responsables des variations des assemblages de juvéniles de cyprinidés du haut Rhône. En utilisant des chroniques de températures de l'eau, de débits et d'échantillonnages par pêche électrique sur la période 1980-2005, nous avons déterminé trois groupes d'espèces présentant des réponses synchrones aux variations d'environnement, et développé deux types de modèles hiérarchique, s'appuyant sur ces groupes, selon une perspective bayésienne :- un modèle de régression poissonienne, pour lequel nous avons utilisé une procédure de choix de modèle fondée sur le critère du Facteur de Bayes. Ce premier modèle nous a permis de sélectionner les variables d'intérêt et de quantifier leurs effets sur les variations interannuelles d'abondances des différentes espèces. - un modèle à facteur latent partagé, résumant l'influence commune d'une variable latente, l'hypersignal, sur les variations de l'environnement et des proportions relatives des groupes d'espèces. Nous avons ainsi souligné les importances relatives des variables environnementales dans la structuration des communautés. Alors que leurs effets sont généralement discutés séparément, nous avons mis en évidence l'influence conjointe des régimes thermique et hydrique sur la structuration et les variations interannuelles des assemblages de juvéniles de poissons en grandes rivières. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory Communautés de poissons régime thermique régime hydrique variations interannuelles statistiques bayésiennes modélisation hiérarchique
30	Lois limites fonctionnelles pour le processus empirique et applications Ouadah, Sarah 05 December 2012 (has links) (PDF) Nous nous intéressons dans cette thèse à l'estimation non paramétrique de la densité à partir d'un échantillon aléatoire. Nous établissons des propriétés limites d'estimateurs de densité en les déduisant de lois limites fonctionnelles pour le processus empirique local, qui sont démontrées dans un contexte général. L'exposé de thèse, comprenant deux parties, est construit de la manière suivante. La première partie porte sur des lois limites fonctionnelles locales. Elles sont établies pour trois ensembles de suites de fonctions aléatoires, construites à partir: du processus empirique uniforme, du processus empirique de quantiles uniforme et du processus empirique de Kaplan-Meier. Ces lois sont uniformes relativement à la taille des incréments de ces processus empiriques locaux et décrivent le comportement asymptotique de la distance de Hausdorff entre chacun de ces trois ensembles et un ensemble de type Strassen. La deuxième partie porte sur l'estimation non paramétrique de la densité. Nous présentons plusieurs applications des lois limites fonctionnelles locales établies précédemment. Ces résultats comportent, d'une part, la description de lois limites pour des estimateurs non paramétriques de la densité, comprenant les estimateurs à noyau et les estimateurs de la densité par la méthode des plus proches voisins, et d'autre part, des lois limites pour les estimateurs à noyau de la densité des temps de survie et du taux de panne dans un modèle de censure à droite. Ces lois limites ont la particularité d'être établies, dans le cadre de la convergence en probabilité, uniformément relativement aux paramètres de lissage des estimateurs considérés. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory Processus empiriques Modèle de censure à droite Convergence en probabilité

Search results