Global ETD Search

401	Réduction de dimension en présence de données censurées Lopez, Olivier 06 December 2007 (has links) (PDF) Nous considérons des modèles de régression où la variable expliquée est censurée à droite aléatoirement. Nous proposons de nouveaux estimateurs de la fonction de régression dans des modèles paramétriques, et nous proposons une procédure de test non paramétrique d'adéquation à ces modèles. Nous prolongeons ces méthodes à l'étude du modèle semi-paramétrique "single-index", généralisant ainsi des techniques de réduction de dimension utilisées en l'absence de censure. Nous nous penchons tout d'abord sur le cas d'un modèle où la variable de censure est indépendante de la variable expliquée ainsi que des variables explicatives. Nous travaillons dans un second temps dans un cadre moins restrictif où la variable expliquée et la censure sont indépendantes conditionnellement aux variables explicatives. Une difficulté spécifique à ce dernier type de modèle tient en l'impossibilité des techniques actuelles à estimer une espérance conditionnelle (de façon paramétrique ou non) en présence de plus d'une<br />variable explicative. Nous développons une nouvelle approche de réduction de la dimension afin de résoudre ce problème. [MATH] Mathematics statistique non paramétrique réduction de dimension analyse de survie modèles de régression estimateur de Kaplan-Meier martingales tests non paramétriques
402	Equilibrium states on thin energy shells. Thompson, Richard L. January 1974 (has links) Thesis--Cornell. / Bibliography: p. 108-110.
403	Méthodes statistiques et informatiques pour le traitement des données manquantes Gu Co, Weila Vila 08 March 1997 (has links) (PDF) Cette thèse est consacrée au traitement des données manquantes. Des méthodes descriptives (analyse en composantes principales, analyse des correspondances dont analyse homogène et la classification automatique) sont étudiées dans le cadre des données incomplètes. La seconde partie est consacrée à des problèmes de fusion de fichiers et analyses homogène y est introduite. Analyse de données incomplètes estimation des données manquantes analyse homogène fusion statistique de fichiers
404	Interplay between concentration, complexity and geometry in learning theory with applications to high dimensional data analysis Lecué, Guillaume 08 December 2011 (has links) (PDF) In this document I present the works I undertook since the end of my Ph.D. I started my Ph.D in September 2004 at the Laboratoire de Probabilit{é}s et Mod{é}les Al{é}atoires of Universit{é} Paris 6. I was then hired in October 2007 by the CNRS and spent my first two years at the Laboratoire d'Analyse, Topologie et Probabilit{é} in Marseille. In 2009, I moved to the Laboratoire d'Analyse et Math{é}matiques Appliqu{é}es at the Universit{é} Paris-Est Marne-la-vall{é}e. I will also use the opportunity of writing this manuscript to add some remarks and extensions to these works. [STAT:OT] Statistics/Other Statistics apprentissage statistique inégalités oracle méthodes d'agrégation pénalisation régularisation parcimonie
405	Inférence statistique à travers les échelles Duval, Céline 07 December 2012 (has links) (PDF) Cette thèse porte sur le problème d'estimation à travers les échelles pour un processus stochastique. Nous étudions comment le choix du pas d'échantillonnage impacte les procédures statistiques. Nous nous intéressons à l'estimation de processus à sauts à partir de l'observation d'une trajectoire discrétisée sur [0, T]. Lorsque la longueur de l'intervalle d'observation T va à l'infini, le pas d'échantillonnage tend soit vers 0 (échelle microscopique), vers une constante positive (échelle intermédiaire) ou encore vers l'infini (échelle macroscopique). Dans chacun de ces régimes nous supposons que le nombre d'observations tend vers l'infini. Dans un premier temps le cas particulier d'un processus de Poisson composé d'intensité inconnue avec des sauts symétriques {-1,1} est étudié. Le Chapitre 2 illustre la notion d'estimation statistique dans les trois échelles définies ci-dessus. Dans ce modèle, on s'intéresse aux propriétés des expériences statistiques. On montre la propriété de Normalité Asymptotique Locale dans les trois échelles microscopiques, intermédiaires et macroscopiques. L'information de Fisher est alors connue pour chacun de ces régimes. Ensuite nous analysons comment se comporte une procédure d'estimation de l'intensité qui est efficace (de variance minimale) à une échelle donnée lorsqu'on l'applique à des observations venant d'une échelle différente. On regarde l'estimateur de la variation quadratique empirique, qui est efficace dans le régime macroscopique, et on l'utilise sur des données provenant des régimes intermédiaire ou microscopique. Cet estimateur reste efficace dans les échelles microscopiques, mais montre une perte substantielle d'information aux échelles intermédiaires. Une procédure unifiée d'estimation est proposée, elle est efficace dans tous les régimes. Les Chapitres 3 et 4 étudient l'estimation non paramétrique de la densité de saut d'un processus renouvellement composé dans les régimes microscopiques, lorsque le pas d'échantillonnage tend vers 0. Un estimateur de cette densité utilisant des méthodes d'ondelettes est construit. Il est adaptatif et minimax pour des pas d'échantillonnage qui décroissent en T^{-alpha}, pour alpha>0. La procédure d'estimation repose sur l'inversion de l'opérateur de composition donnant la loi des incréments comme une transformation non linéaire de la loi des sauts que l'on cherche à estimer. L'opérateur inverse est explicite dans le cas du processus de Poisson composé (Chapitre 3), mais n'a pas d'expression analytique pour les processus de renouvellement composés (Chapitre 4). Dans ce dernier cas, il est approché via une technique de point fixe. Le Chapitre 5 étudie le problème de perte d'identifiabilité dans les régimes macroscopiques. Si un processus à sauts est observé avec un pas d'échantillonnage grand, certaines approximations limites, telles que l'approximation gaussienne, deviennent valides. Ceci peut entraîner une perte d'identifiabilité de la loi ayant généré le processus, dès lors que sa structure est plus complexe que celle étudiée dans le Chapitre 2. Dans un premier temps un modèle jouet à deux paramètres est considéré. Deux régimes différents émergent de l'étude : un régime où le paramètre n'est plus identifiable et un où il reste identifiable mais où les estimateurs optimaux convergent avec des vitesses plus lentes que les vitesses paramétriques habituelles. De l'étude de cas particulier, nous dérivons des bornes inférieures montrant qu'il n'existe pas d'estimateur convergent pour les processus de Lévy de saut pur ou pour les processus de renouvellement composés dans les régimes macroscopiques tels que le pas d'échantillonnage croît plus vite que racine de T. Enfin nous identifions des régimes macroscopiques où les incréments d'un processus de Poisson composé ne sont pas distinguables de variables aléatoires gaussiennes, et des régimes où il n'existe pas d'estimateur convergent pour les processus de Poisson composés dépendant de trop de paramètres. [STAT:TH] Statistics/Statistics Theory Estimation nonparamétrique Information statistique Processus observé à temps discret Processus de renouvellement
406	Approches intégrées du génome et du transcriptome dans les maladies complexes humaines Rotival, Maxime 16 June 2011 (has links) (PDF) Cette thèse a pour objet l'étude du lien génotype-transcriptome et de son influence sur le développement des maladies multifactorielles. Les apports de ce travail sont à la fois méthodologiques et appliqués. Nous étudions d'abord le lien génotype-transcriptome en établissant la liste des eQTL (expression Quantitative Trait Loci) dans le monocyte et nous évaluons l'apport de l'observation des eQTL pour l'interprétation des analyses d'association génome entier (GWAS). Nous proposons ensuite une méthode pour l'identification de variants génétiques affectant des modules de gènesco-régulés que nous appliquons à l'étude des données d'expression de monocytes issus d'une large étude populationnelle (GHS). Nous mettons ainsi en évidence plusieurs loci affectant l'expression de modules de gènes co-régulés, dont plusieurs sont impliqués dans la prédisposition au diabète de type I. Nous montrons également que le processus d'isolation des cellules monocytaires peut engendrer des biais liés à la contamination par des types cellulaires non désirés et nous proposons une approche pour contrôler ce type de biais dans les analyses. Génomique Transcriptome Maladies Complexes EQTL Statistique Cardiovasculaire
407	Développement d'un modèle d'estimation des variables de trafic urbain basé sur l'utilisation des technologies de géolocalisation Hofleitner, Aude 04 December 2012 (has links) (PDF) Face à l'augmentation de la mobilité, les politiques de développement durable cherchent à optimiser l'utilisation des infrastructures de transport existantes. En particulier, les systèmes d'information du trafic à large échelle ont le potentiel d'optimiser l'utilisation du réseau de transport. Ils doivent fournir aux usagers une information fiable en temps réel leur permettant d'optimiser leurs choix d'itinéraires. Ils peuvent également servir d'outils d'aide à la décision pour les gestionnaires du réseau. La thèse étudie comment l'émergence des services Internet sur les téléphones portables et la rapide prolifération des systèmes de géolocalisation permet le développement de nouveaux services d'estimation et d'information des conditions de trafic en réseau urbain. L'utilisation des données provenant de véhicules traceurs nécessite le développement de modèles et d'algorithmes spécifiques, afin d'extraire l'information de ces données qui ne sont envoyées, jusqu'à présent, que par une faible proportion des véhicules circulant sur le réseau et avec une fréquence faible. La variabilité des conditions de circulations, due à la présence de feux de signalisation, motive une approche statistique de la dynamique du trafic, tout en intégrant les principes physiques hydrodynamiques (formation et dissolution de files d'attentes horizontales). Ce modèle statistique permet d'intégrer de façon robuste les données bruitées envoyées par les véhicules traceurs, d'estimer les paramètres physiques caractérisant la dynamique du trafic et d'obtenir l'expression paramétrique de la loi de probabilité des temps de parcours entre deux points quelconques du réseau. La thèse s'appuie sur les données et les infrastructures développées par le projet Mobile Millennium à l'Université de Californie, Berkeley pour valider les modèles et algorithmes proposés. Les résultats soulignent l'importance du développement de modèles statistiques et d'algorithmes adaptés aux données disponibles pour développer un système opérationnel d'estimation du trafic à large échelle Estimation Traffic urbain Modèle statistique Données de géo-localisation Prédiction
408	L'estimation des facteurs d'équivalence de revenu : le cas du Québec Lavigne, Benoît January 2007 (has links) (PDF) L'objectif de cet ouvrage est de procéder à l'estimation d'une échelle d'équivalence de revenu pour le Québec. Cet objectif revêt une importance particulière puisqu'une telle échelle semble ne jamais avoir été estimée pour le cas particulier du Québec. La méthode choisie repose sur l'estimation d'un système de demande complet tout en assurant l'exactitude des facteurs d'équivalence. Cette méthode s'inspire des travaux réalisés par Shelley A. Phipps (1998) sur les familles canadiennes, mais en modifiant le modèle de manière à admettre tous les types de ménages. Les microdonnées utilisées proviennent de l'Enquête sur les dépenses des ménages de 1997 à 2004 réalisée par Statistique Canada. Les prix proviennent des indices des prix à la consommation annuels de 1997 à 2004, par province, tirés du tableau 326-0002 de Statistique Canada. Sept échelles d'équivalence, dont trois québécoises, sont obtenues à l'aide de sous-ensembles différents définis par des régions et des ensembles de biens différents. Nous avons débuté par utiliser cinq catégories de biens pour les régions du Québec, du Québec urbain, des Maritimes, des Prairies, de la Colombie-Britannique et de l'Ontario, puis, afin de comparer nos résultats avec les études précédentes, nous avons utilisé seulement quatre catégories de biens pour le Québec urbain. Les résultats obtenus permettent d'énoncer certains constats empiriques importants, notamment en ce qui a trait aux divergences rurales et urbaines, aux divergences interprovinciales et aux impacts du choix des biens pris en compte lors de l'estimation. Les échelles obtenues sont comparées à l'échelle implicite suivie par le gouvernement via ses programmes sociaux. On constate un écart considérable entre celles-ci. On constate également une disproportion adultes-enfants. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Facteurs d'équivalence, Échelles d'équivalence, Économie du bien-être, Revenu des ménages. Échelle d'équivalence Économie du bien-être Ménage (Statistiques) Modèle statistique Revenu familial Québec (Province)
409	Approche neuro-mimétique au service du dépistage du cancer du sein Naoum, Hanae January 2009 (has links) (PDF) Les méthodes de classification automatiques sont un outil important de nos jours pour identifier différentes données et étudier leurs propriétés. On retrouve aujourd'hui l'utilisation des réseaux de neurones en tant que classifieurs dans plusieurs domaines d'application, notamment, le dépistage du cancer du sein. En effet, dans cet axe de recherche, beaucoup de travaux ont été réalisés en employant une approche neuronale pour la reconnaissance de formes et ont abouti à des résultats intéressants. Ceci étant, chaque modèle de réseau de neurones diffère d'un autre de par ses paramètres expérimentaux, sa complexité d'implantation et son domaine d'applicabilité. Ainsi, chaque modèle possède ses avantages et ses inconvénients, faisant qu'il soit plus approprié pour une tâche donnée qu'un autre. Dans (Freeman 1987, Freeman et al., 1988) des expérimentations electrophysiologiques ont été réalisées sur des lapins prouvant l'existence de la dynamique chaotique dans les neurones réels. Depuis les années quatre-vingts, les réseaux de neurones chaotiques ont été le centre d'intérêt de plusieurs travaux en raison de leur dynamique complexe et leur application potentielle dans la dynamique associative, l'optimisation, et le traitement de l'information (Adachi et Aihara, 1997 ; Aihara et al., 1990 ; Tokuda et al., 1997). Dans cette optique, on s'intéresse dans ce travail à étudier la performance d'un modèle de réseau de neurones chaotique sur une tâche de classification reliée à la détection du cancer du sein. À cet effet, on procède dans un premier temps à la revue critique de certains travaux portant sur le sujet et qui ont été rapportés dans la littérature, de manière à situer le travail par rapport à ces travaux et mettre en évidence les contributions qu'il permet. Une étude comparative est ensuite établie où l'on met en avant les avantages d'utiliser une mémoire associative bidirectionnelle chaotique pour le travail de classification, relativement à deux modèles de réseau de neurones classiques, à savoir, une mémoire associative bidirectionnelle standard et un réseau multicouche à rétropropagation d'erreur. Cancer du sein Dépistage des maladies Classification automatique (Statistique) Réseau neuronal (Informatique) Reconnaissance des formes
410	Évaluation de méthodes de mise à l'échelle statistique : reconstruction des extrêmes et de la variabilité du régime de mousson au Sahel Parishkura, Dimitri January 2009 (has links) (PDF) Deux méthodes de mise à l'échelle statistique sont évaluées sur une station située au Burkina Faso afin de générer une information climatique pertinente au niveau local, en terme de climat moyen et des principales caractéristiques de variabilité et d'extrême du régime de précipitation. Les deux méthodes de régression multi-linéaire SDSM et ASD analysées reposent sur le principe que des relations empiriques entre certaines variables atmosphériques à grande échelle issues des réanalyses ou des Modèles Climatiques globaux (MCGs), variables dénommées prédicteurs, et des paramètres climatiques locaux (ex. précipitation) peuvent être établies. En mode réanalyse, le travail a consisté, d'une part, à partir de variables synoptiques de NCEP, à analyser (i) l'intérêt d'utiliser une gamme plus vaste de prédicteurs dérivés et sur plus de niveaux verticaux dans l'atmosphère, et (ii) l'intérêt d'utiliser une sélection des prédicteurs sur une base mensuelle versus annuelle. D'autre part, en mode climat, à partir de variables synoptiques issues de deux MCGs (CGCM2 et HadCM3), l'évaluation a porté sur l'utilisation de ces modèles climatiques mondiaux afin de générer une information climatique plausible et utile à l'échelle locale dans le but ultime de générer des scénarios climatiques pertinents pour les études d'impacts en milieu sahélien. En mode réanalyse, le fait de considérer un plus vaste ensemble de prédicteurs et plus de niveaux atmosphériques, a permis de réduire les biais de l'ensemble des critères statistiques/climatiques comme la moyenne quotidienne, la variabilité intra-saisonnière, les indices d'intensité et d'extrêmes, et l'indice des dates de début, de fin et de longueur de mousson. De plus, avec cette nouvelle configuration, les deux modèles de mise à l'échelle sont en mesure de reconstruire une partie des changements observés dans le régime de précipitation (i.e. diminution de la quantité totale de pluie et de la fréquence du nombre d'événements pluvieux). Si dans la majorité des cas ASD performe mieux que SDSM avec un choix restreint de prédicteurs, les différences entre les modèles diminuent en utilisant un plus grand choix de prédicteurs, et en sélectionnant ceux-ci sur une base mensuelle. Dans ce dernier cas, les incertitudes sur la valeur médiane et la moyenne des indices de précipitation, notamment au coeur de la saison pluvieuse et à la fin de celle-ci, sont réduites par rapport aux autres simulations. Avec les prédicteurs des MCGs, notamment le modèle HadCM3, la simulation de l'ensemble des indices est systématiquement améliorée par rapport aux valeurs équivalentes issues des variables brutes des MCGs, aussi bien avec SDSM que ASD, notamment l'occurrence des jours de pluie, la variabilité intra-saisonnière, les indices d'intensité et d'extrêmes. Par contre l'utilisation des prédicteurs CGCM2 dans la mise à l'échelle statistique ne permet pas d'améliorer systématiquement tous les indices analysés par rapport aux données brutes de ce MCG. Quoi qu'il en soit, notre étude a permis de montrer qu'avec des prédicteurs relativement bien reproduits à grande échelle par les modèles globaux, les distributions quotidiennes de précipitation étaient plus plausibles à l'échelle locale, en dépit des difficultés à simuler adéquatement les extrêmes (i.e. largement surestimés surtout avec le CGCM2). Dans l'avenir, d'autres analyses devront inclure des prédicteurs des modèles globaux ou régionaux, telles que suggérés avec les réanalyses NCEP (i.e. autres niveaux, variables et résolution temporelle), ainsi qu'à l'aide d'autres méthodes non-linéaires en lien avec les particularités physiques à l'échelle régionale et locale. Ceci contribuera ultimement à générer des scénarios plus plausibles à ces échelles, d'autant que la mousson Ouest Africaine est influencée naturellement par des téléconnections variées à l'échelle globale et régionale. L'usage de cette information climatique pour des applications locales pourrait ainsi être amélioré, en lien avec les besoins des études d'impacts et de vulnérabilité dans le domaine agropastoral, humain et de la modélisation environnementale. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : ASD, SDSM, NCEP, MCG, Variabilité interannuelle, Mousson ouest africaine, Prédicteurs, Indices de précipitations, Mise à l'échelle statistique. Mousson Méthode statistique Régression linéaire multiple Modèle climatique Réduction d'échelle (Climatologie) Changement climatique Sahel (Région)

Search results