Global ETD Search

41	Maximum de vraisemblance empirique pour la détection de changements dans un modèle avec un nombre faible ou très grand de variables / Maximum empirical likelihood for detecting the changes in a model with a low or very large number of variables Salloum, Zahraa 19 January 2016 (has links) Cette thèse est consacrée à tester la présence de changements dans les paramètres d'un modèle de régression non-linéaire ainsi que dans un modèle de régression linéaire en très grande dimension. Tout d'abord, nous proposons une méthode basée sur la vraisemblance empirique pour tester la présence de changements dans les paramètres d'un modèle de régression non-linéaire. Sous l'hypothèse nulle, nous prouvons la consistance et la vitesse de convergence des estimateurs des paramètres de régression. La loi asymptotique de la statistique de test sous l'hypothèse nulle nous permet de trouver la valeur critique asymptotique. D'autre part, nous prouvons que la puissance asymptotique de la statistique de test proposée est égale à 1. Le modèle épidémique avec deux points de rupture est également étudié. Ensuite, on s'intéresse à construire les régions de conﬁance asymptotiques pour la différence entre les paramètres de deux phases d'un modèle non-linéaire avec des regresseurs aléatoires en utilisant la méthode de vraisemblance empirique. On montre que le rapport de la vraisemblance empirique a une distribution asymptotique χ2. La méthode de vraisemblance empirique est également utilisée pour construire les régions de conﬁance pour la différence entre les paramètres des deux phases d'un modèle non-linéaire avec des variables de réponse manquantes au hasard (Missing At Random (MAR)). Aﬁn de construire les régions de conﬁance du paramètre en question, on propose trois statistiques de vraisemblance empirique : la vraisemblance empirique basée sur les données cas-complète, la vraisemblance empirique pondérée et la vraisemblance empirique par des valeurs imputées. On prouve que les trois rapports de vraisemblance empirique ont une distribution asymptotique χ2. Un autre but de cette thèse est de tester la présence d'un changement dans les coefficients d'un modèle linéaire en grande dimension, où le nombre des variables du modèle peut augmenter avec la taille de l'échantillon. Ce qui conduit à tester l'hypothèse nulle de non-changement contre l'hypothèse alternative d'un seul changement dans les coeﬃcients de régression. Basée sur les comportements asymptotiques de la statistique de rapport de vraisemblance empirique, on propose une simple statistique de test qui sera utilisée facilement dans la pratique. La normalité asymptotique de la statistique de test proposée sous l'hypothèse nulle est prouvée. Sous l'hypothèse alternative, la statistique de test diverge / In this PHD thesis, we propose a nonparametric method based on the empirical likelihood for detecting the change in the parameters of nonlinear regression models and the change in the coeﬃcient of linear regression models, when the number of model variables may increase as the sample size increases. Firstly, we test the null hypothesis of no-change against the alternative of one change in the regression parameters. Under null hypothesis, the consistency and the convergence rate of the regression parameter estimators are proved. The asymptotic distribution of the test statistic under the null hypothesis is obtained, which allows to ﬁnd the asymptotic critical value. On the other hand, we prove that the proposed test statistic has the asymptotic power equal to 1. The epidemic model, a particular case of model with two change-points, under the alternative hypothesis, is also studied. Afterwards, we use the empirical likelihood method for constructing the conﬁdence regions for the diﬀerence between the parameters of a two-phases nonlinear model with random design. We show that the empirical likelihood ratio has an asymptotic χ2 distribu- tion. Empirical likelihood method is also used to construct the conﬁdence regions for the diﬀerence between the parameters of a two-phases nonlinear model with response variables missing at randoms (MAR). In order to construct the conﬁdence regions of the parameter in question, we propose three empirical likelihood statistics : empirical likelihood based on complete-case data, weighted empirical likelihood and empirical likelihood with imputed va- lues. We prove that all three empirical likelihood ratios have asymptotically χ2 distributions. An another aim for this thesis is to test the change in the coeﬃcient of linear regres- sion models for high-dimensional model. This amounts to testing the null hypothesis of no change against the alternative of one change in the regression coeﬃcients. Based on the theoretical asymptotic behaviour of the empirical likelihood ratio statistic, we propose, for a deterministic design, a simpler test statistic, easier to use in practice. The asymptotic normality of the proposed test statistic under the null hypothesis is proved, a result which is diﬀerent from the χ2 law for a model with a ﬁxed variable number. Under alternative hypothesis, the test statistic diverges Point de rupture Modèle paramétrique non-linéaire Test de la vraisemblance empirique Intervalle de confiance Données manquantes Comportement asymptotique Point de rupture Nonlinear parametric model Empirical likelihood test Confidence region Missing response High-dimensional linear model Asymptotic behaviour 519.5
42	Estimation de l'occupation des sols à grande échelle pour l'exploitation d'images d'observation de la Terre à hautes résolutions spatiale, spectrale et temporelle / Exploitation of high spatial, spectral and temporal resolution Earth observation imagery for large area land cover estimation Rodes Arnau, Isabel 10 November 2016 (has links) Les missions spatiales d'observation de la Terre de nouvelle génération telles que Sentinel-2 (préparé par l'Agence Spatiale Européenne ESA dans le cadre du programme Copernicus, auparavant appelé Global Monitoring for Environment and Security ou GMES) ou Venµs, conjointement développé par l'Agence Spatiale Française (Centre National d 'Études Spatiales CNES) et l'Agence Spatiale Israélienne (ISA), vont révolutionner la surveillance de l'environnement d' aujourd'hui avec le rendement de volumes inédits de données en termes de richesse spectrale, de revisite temporelle et de résolution spatiale. Venµs livrera des images dans 12 bandes spectrales de 412 à 910 nm, une répétitivité de 2 jours et une résolution spatiale de 10 m; les satellites jumeaux Sentinel-2 assureront une couverture dans 13 bandes spectrales de 443 à 2200 nm, avec une répétitivité de 5 jours, et des résolutions spatiales de 10 à 60m. La production efficace de cartes d'occupation des sols basée sur l'exploitation de tels volumes d'information pour grandes surfaces est un défi à la fois en termes de coûts de traitement mais aussi de variabilité des données. En général, les méthodes classiques font soit usage des approches surveillées (trop coûteux en termes de travaux manuels pour les grandes surfaces), ou soit ciblent des modèles locaux spécialisés pour des problématiques précises (ne s'appliquent pas à autres terrains ou applications), ou comprennent des modèles physiques complexes avec coûts de traitement rédhibitoires. Ces approches existantes actuelles sont donc inefficaces pour l'exploitation du nouveau type de données que les nouvelles missions fourniront, et un besoin se fait sentir pour la mise en œuvre de méthodes précises, rapides et peu supervisées qui permettent la généralisation à l'échelle de grandes zones avec des résolutions élevées. Afin de permettre l'exploitation des volumes de données précédemment décrits, l'objectif de ce travail est la conception et validation d'une approche entièrement automatique qui permet l'estimation de la couverture terrestre de grandes surfaces avec imagerie d'observation de la Terre de haute résolution spatiale, spectrale et temporelle, généralisable à des paysages différents, et offrant un temps de calcul opérationnel avec ensembles de données satellitaires simulés, en préparation des prochaines missions. Cette approche est basée sur l'intégration d'algorithmes de traitement de données, tels que les techniques d'apprentissage de modèles et de classification, et des connaissances liées à l'occupation des sols sur des questions écologiques et agricoles, telles que les variables avec un impact sur la croissance de la végétation ou les pratiques de production. Par exemple, la nouvelle introduction de température comme axe temporel pour un apprentissage des modèles ultérieurs intègre un facteur établi de la croissance de la végétation à des techniques d'apprentissage automatiques pour la caractérisation des paysages. Une attention particulière est accordée au traitement de différentes questions, telles que l'automatisation, les informations manquantes (déterminées par des passages satellitaires, des effets de réflexion des nuages, des ombres ou encore la présence de neige), l'apprentissage et les données de validation limitées, les échantillonnages temporels irréguliers (différent nombre d'images disponible pour chaque période et région, données inégalement réparties dans le temps), la variabilité des données, et enfin la possibilité de travailler avec différents ensembles de données et nomenclatures. / The new generation Earth observation missions such as Sentinel-2 (a twin-satellite initiative prepared by the European Space Agency, ESA, in the frame of the Copernicus programme, previously known as Global Monitoring for Environment and Security or GMES) and Venµs, jointly developed by the French Space Agency (Centre National d'Études Spatiales, CNES) and the Israeli Space Agency (ISA), will revolutionize present-day environmental monitoring with the yielding of unseen volumes of data in terms of spectral richness, temporal revisit and spatial resolution. Venµs will deliver images in 12 spectral bands from 412 to 910 nm, a repetitivity of 2 days, and a spatial resolution of 10 m; the twin Sentinel-2 satellites will provide coverage in 13 spectral bands from 443 to 2200 nm, with a repetitivity of 5 days, and spatial resolutions of 10 to 60m. The efficient production of land cover maps based on the exploitation of such volumes of information for large areas is challenging both in terms of processing costs and data variability. In general, conventional methods either make use of supervised approaches (too costly in terms of manual work for large areas), target specialised local models for precise problem areas (not applicable to other terrains or applications), or include complex physical models with inhibitory processing costs. These existent present-day approaches are thus inefficient for the exploitation of the new type of data that the new missions will provide, and a need arises for the implementation of accurate, fast and minimally supervised methods that allow for generalisation to large scale areas with high resolutions. In order to allow for the exploitation of the previously described volumes of data, the objective of this thesis is the conception, design, and validation of a fully automatic approach that allows the estimation of large-area land cover with high spatial, spectral and temporal resolution Earth observation imagery, being generalisable to different landscapes, and offering operational computation times with simulated satellite data sets, in preparation of the coming missions. Télédétection Couverture terrestre Données manquantes Données multispectrales Remote sensing Automatic large area mapping Land cover Sentinel-2 Satellite time series Missing data Multispectral data
43	Estimation robuste de courbes de consommmation électrique moyennes par sondage pour de petits domaines en présence de valeurs manquantes / Robust estimation of mean electricity consumption curves by sampling for small areas in presence of missing values De Moliner, Anne 05 December 2017 (has links) Dans cette thèse, nous nous intéressons à l'estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l'ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement inobservées.En effet, de nombreuses études réalisées dans le groupe EDF, que ce soit dans une optique commerciale ou de gestion du réseau de distribution par Enedis, se basent sur l'analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes. L'ensemble des consommations électriques de chacun des 35 millions de clients résidentiels et professionnels Français ne pouvant être mesurées pour des raisons de coût et de protection de la vie privée, ces courbes de consommation moyennes sont estimées par sondage à partir de panels. Nous prolongeons les travaux de Lardin (2012) sur l'estimation de courbes moyennes par sondage en nous intéressant à des aspects spécifiques de cette problématique, à savoir l'estimation robuste aux unités influentes, l'estimation sur des petits domaines, et l'estimation en présence de courbes partiellement ou totalement inobservées.Pour proposer des estimateurs robustes de courbes moyennes, nous adaptons au cadre fonctionnel l'approche unifiée d'estimation robuste en sondages basée sur le biais conditionnel proposée par Beaumont (2013). Pour cela, nous proposons et comparons sur des jeux de données réelles trois approches : l'application des méthodes usuelles sur les courbes discrétisées, la projection sur des bases de dimension finie (Ondelettes ou Composantes Principales de l'Analyse en Composantes Principales Sphériques Fonctionnelle en particulier) et la troncature fonctionnelle des biais conditionnels basée sur la notion de profondeur d'une courbe dans un jeu de données fonctionnelles. Des estimateurs d'erreur quadratique moyenne instantanée, explicites et par bootstrap, sont également proposés.Nous traitons ensuite la problématique de l'estimation sur de petites sous-populations. Dans ce cadre, nous proposons trois méthodes : les modèles linéaires mixtes au niveau unité appliqués sur les scores de l'Analyse en Composantes Principales ou les coefficients d'ondelettes, la régression fonctionnelle et enfin l'agrégation de prédictions de courbes individuelles réalisées à l'aide d'arbres de régression ou de forêts aléatoires pour une variable cible fonctionnelle. Des versions robustes de ces différents estimateurs sont ensuite proposées en déclinant la démarche d'estimation robuste basée sur les biais conditionnels proposée précédemment.Enfin, nous proposons quatre estimateurs de courbes moyennes en présence de courbes partiellement ou totalement inobservées. Le premier est un estimateur par repondération par lissage temporel non paramétrique adapté au contexte des sondages et de la non réponse et les suivants reposent sur des méthodes d'imputation. Les portions manquantes des courbes sont alors déterminées soit en utilisant l'estimateur par lissage précédemment cité, soit par imputation par les plus proches voisins adaptée au cadre fonctionnel ou enfin par une variante de l'interpolation linéaire permettant de prendre en compte le comportement moyen de l'ensemble des unités de l'échantillon. Des approximations de variance sont proposées dans chaque cas et l'ensemble des méthodes sont comparées sur des jeux de données réelles, pour des scénarios variés de valeurs manquantes. / In this thesis, we address the problem of robust estimation of mean or total electricity consumption curves by sampling in a finite population for the entire population and for small areas. We are also interested in estimating mean curves by sampling in presence of partially missing trajectories.Indeed, many studies carried out in the French electricity company EDF, for marketing or power grid management purposes, are based on the analysis of mean or total electricity consumption curves at a fine time scale, for different groups of clients sharing some common characteristics.Because of privacy issues and financial costs, it is not possible to measure the electricity consumption curve of each customer so these mean curves are estimated using samples. In this thesis, we extend the work of Lardin (2012) on mean curve estimation by sampling by focusing on specific aspects of this problem such as robustness to influential units, small area estimation and estimation in presence of partially or totally unobserved curves.In order to build robust estimators of mean curves we adapt the unified approach to robust estimation in finite population proposed by Beaumont et al (2013) to the context of functional data. To that purpose we propose three approaches : application of the usual method for real variables on discretised curves, projection on Functional Spherical Principal Components or on a Wavelets basis and thirdly functional truncation of conditional biases based on the notion of depth.These methods are tested and compared to each other on real datasets and Mean Squared Error estimators are also proposed.Secondly we address the problem of small area estimation for functional means or totals. We introduce three methods: unit level linear mixed model applied on the scores of functional principal components analysis or on wavelets coefficients, functional regression and aggregation of individual curves predictions by functional regression trees or functional random forests. Robust versions of these estimators are then proposed by following the approach to robust estimation based on conditional biais presented before.Finally, we suggest four estimators of mean curves by sampling in presence of partially or totally unobserved trajectories. The first estimator is a reweighting estimator where the weights are determined using a temporal non parametric kernel smoothing adapted to the context of finite population and missing data and the other ones rely on imputation of missing data. Missing parts of the curves are determined either by using the smoothing estimator presented before, or by nearest neighbours imputation adapted to functional data or by a variant of linear interpolation which takes into account the mean trajectory of the entire sample. Variance approximations are proposed for each method and all the estimators are compared to each other on real datasets for various missing data scenarios. Arbres de régression Biais conditionnels Données fonctionnelles Données manquantes Estimation sur petits domaines Estimateurs à noyau Forêts aléatoires Modèles linéaires mixtes Plus proches voisins Robustesse Sondage Conditional bias Functional data Kernel estimators Missing data Linear mixed models Nearest neighbours Random forests Regression trees Robustness Small area estimation Survey sampling 510
44	Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes / Multiple imputation using principal component methods : A new methodology to deal with missing values Audigier, Vincent 25 November 2015 (has links) Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev / This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods. Données manquantes Données mixtes Données qualitatives Imputation multiple Imputation simple Analyse factorielle des données mixtes Analyse en composantes principales Analyse des correspondances multiples Bayésien Bootstrap Missing data Mixed data Categorical data Multiple Imputation Single Imputation Factorial analysis of mixed data Principal component analysis Multiple correspondence analysis Bayesian Bootstrap
45	Topological inference from measures / Inférence topologique à partir de mesures Buchet, Mickaël 01 December 2014 (has links) La quantité de données disponibles n'a jamais été aussi grande. Se poser les bonnes questions, c'est-à-dire des questions qui soient à la fois pertinentes et dont la réponse est accessible est difficile. L'analyse topologique de données tente de contourner le problème en ne posant pas une question trop précise mais en recherchant une structure sous-jacente aux données. Une telle structure est intéressante en soi mais elle peut également guider le questionnement de l'analyste et le diriger vers des questions pertinentes. Un des outils les plus utilisés dans ce domaine est l'homologie persistante. Analysant les données à toutes les échelles simultanément, la persistance permet d'éviter le choix d'une échelle particulière. De plus, ses propriétés de stabilité fournissent une manière naturelle pour passer de données discrètes à des objets continus. Cependant, l'homologie persistante se heurte à deux obstacles. Sa construction se heurte généralement à une trop large taille des structures de données pour le travail en grandes dimensions et sa robustesse ne s'étend pas au bruit aberrant, c'est-à-dire à la présence de points non corrélés avec la structure sous-jacente.Dans cette thèse, je pars de ces deux constatations et m'applique tout d'abord à rendre le calcul de l'homologie persistante robuste au bruit aberrant par l'utilisation de la distance à la mesure. Utilisant une approximation du calcul de l'homologie persistante pour la distance à la mesure, je fournis un algorithme complet permettant d'utiliser l'homologie persistante pour l'analyse topologique de données de petite dimension intrinsèque mais pouvant être plongées dans des espaces de grande dimension. Précédemment, l'homologie persistante a également été utilisée pour analyser des champs scalaires. Ici encore, le problème du bruit aberrant limitait son utilisation et je propose une méthode dérivée de l'utilisation de la distance à la mesure afin d'obtenir une robustesse au bruit aberrant. Cela passe par l'introduction de nouvelles conditions de bruit et l'utilisation d'un nouvel opérateur de régression. Ces deux objets font l'objet d'une étude spécifique. Le travail réalisé au cours de cette thèse permet maintenant d'utiliser l'homologie persistante dans des cas d'applications réelles en grandes dimensions, que ce soit pour l'inférence topologique ou l'analyse de champs scalaires. / Massive amounts of data are now available for study. Asking questions that are both relevant and possible to answer is a difficult task. One can look for something different than the answer to a precise question. Topological data analysis looks for structure in point cloud data, which can be informative by itself but can also provide directions for further questioning. A common challenge faced in this area is the choice of the right scale at which to process the data.One widely used tool in this domain is persistent homology. By processing the data at all scales, it does not rely on a particular choice of scale. Moreover, its stability properties provide a natural way to go from discrete data to an underlying continuous structure. Finally, it can be combined with other tools, like the distance to a measure, which allows to handle noise that are unbounded. The main caveat of this approach is its high complexity.In this thesis, we will introduce topological data analysis and persistent homology, then show how to use approximation to reduce the computational complexity. We provide an approximation scheme to the distance to a measure and a sparsifying method of weighted Vietoris-Rips complexes in order to approximate persistence diagrams with practical complexity. We detail the specific properties of these constructions.Persistent homology was previously shown to be of use for scalar field analysis. We provide a way to combine it with the distance to a measure in order to handle a wider class of noise, especially data with unbounded errors. Finally, we discuss interesting opportunities opened by these results to study data where parts are missing or erroneous. Analyse topologique de données Distance à la mesure Approximation Homologie persistante Analyse de champs scalaires Données manquantes Topologie algébrique Complexes simpliciaux Complexe de Vietoris-Rips Inférence topologique Topological data analysis Distance to a measure Approximation Persistent homology Scalar field analysis Incomplete data Algebraic topology Simplicial complexes Vietoris-Rips complex Topological inference
46	Regression modeling with missing outcomes : competing risks and longitudinal data / Contributions aux modèles de régression avec réponses manquantes : risques concurrents et données longitudinales Moreno Betancur, Margarita 05 December 2013 (has links) Les données manquantes sont fréquentes dans les études médicales. Dans les modèles de régression, les réponses manquantes limitent notre capacité à faire des inférences sur les effets des covariables décrivant la distribution de la totalité des réponses prévues sur laquelle porte l'intérêt médical. Outre la perte de précision, toute inférence statistique requière qu'une hypothèse sur le mécanisme de manquement soit vérifiée. Rubin (1976, Biometrika, 63:581-592) a appelé le mécanisme de manquement MAR (pour les sigles en anglais de « manquant au hasard ») si la probabilité qu'une réponse soit manquante ne dépend pas des réponses manquantes conditionnellement aux données observées, et MNAR (pour les sigles en anglais de « manquant non au hasard ») autrement. Cette distinction a des implications importantes pour la modélisation, mais en général il n'est pas possible de déterminer si le mécanisme de manquement est MAR ou MNAR à partir des données disponibles. Par conséquent, il est indispensable d'effectuer des analyses de sensibilité pour évaluer la robustesse des inférences aux hypothèses de manquement.Pour les données multivariées incomplètes, c'est-à-dire, lorsque l'intérêt porte sur un vecteur de réponses dont certaines composantes peuvent être manquantes, plusieurs méthodes de modélisation sous l'hypothèse MAR et, dans une moindre mesure, sous l'hypothèse MNAR ont été proposées. En revanche, le développement de méthodes pour effectuer des analyses de sensibilité est un domaine actif de recherche. Le premier objectif de cette thèse était de développer une méthode d'analyse de sensibilité pour les données longitudinales continues avec des sorties d'étude, c'est-à-dire, pour les réponses continues, ordonnées dans le temps, qui sont complètement observées pour chaque individu jusqu'à la fin de l'étude ou jusqu'à ce qu'il sorte définitivement de l'étude. Dans l'approche proposée, on évalue les inférences obtenues à partir d'une famille de modèles MNAR dits « de mélange de profils », indexés par un paramètre qui quantifie le départ par rapport à l'hypothèse MAR. La méthode a été motivée par un essai clinique étudiant un traitement pour le trouble du maintien du sommeil, durant lequel 22% des individus sont sortis de l'étude avant la fin.Le second objectif était de développer des méthodes pour la modélisation de risques concurrents avec des causes d'évènement manquantes en s'appuyant sur la théorie existante pour les données multivariées incomplètes. Les risques concurrents apparaissent comme une extension du modèle standard de l'analyse de survie où l'on distingue le type d'évènement ou la cause l'ayant entrainé. Les méthodes pour modéliser le risque cause-spécifique et la fonction d'incidence cumulée supposent en général que la cause d'évènement est connue pour tous les individus, ce qui n'est pas toujours le cas. Certains auteurs ont proposé des méthodes de régression gérant les causes manquantes sous l'hypothèse MAR, notamment pour la modélisation semi-paramétrique du risque. Mais d'autres modèles n'ont pas été considérés, de même que la modélisation sous MNAR et les analyses de sensibilité. Nous proposons des estimateurs pondérés et une approche par imputation multiple pour la modélisation semi-paramétrique de l'incidence cumulée sous l'hypothèse MAR. En outre, nous étudions une approche par maximum de vraisemblance pour la modélisation paramétrique du risque et de l'incidence sous MAR. Enfin, nous considérons des modèles de mélange de profils dans le contexte des analyses de sensibilité. Un essai clinique étudiant un traitement pour le cancer du sein de stade II avec 23% des causes de décès manquantes sert à illustrer les méthodes proposées. / Missing data are a common occurrence in medical studies. In regression modeling, missing outcomes limit our capability to draw inferences about the covariate effects of medical interest, which are those describing the distribution of the entire set of planned outcomes. In addition to losing precision, the validity of any method used to draw inferences from the observed data will require that some assumption about the mechanism leading to missing outcomes holds. Rubin (1976, Biometrika, 63:581-592) called the missingness mechanism MAR (for “missing at random”) if the probability of an outcome being missing does not depend on missing outcomes when conditioning on the observed data, and MNAR (for “missing not at random”) otherwise. This distinction has important implications regarding the modeling requirements to draw valid inferences from the available data, but generally it is not possible to assess from these data whether the missingness mechanism is MAR or MNAR. Hence, sensitivity analyses should be routinely performed to assess the robustness of inferences to assumptions about the missingness mechanism. In the field of incomplete multivariate data, in which the outcomes are gathered in a vector for which some components may be missing, MAR methods are widely available and increasingly used, and several MNAR modeling strategies have also been proposed. On the other hand, although some sensitivity analysis methodology has been developed, this is still an active area of research. The first aim of this dissertation was to develop a sensitivity analysis approach for continuous longitudinal data with drop-outs, that is, continuous outcomes that are ordered in time and completely observed for each individual up to a certain time-point, at which the individual drops-out so that all the subsequent outcomes are missing. The proposed approach consists in assessing the inferences obtained across a family of MNAR pattern-mixture models indexed by a so-called sensitivity parameter that quantifies the departure from MAR. The approach was prompted by a randomized clinical trial investigating the benefits of a treatment for sleep-maintenance insomnia, from which 22% of the individuals had dropped-out before the study end. The second aim was to build on the existing theory for incomplete multivariate data to develop methods for competing risks data with missing causes of failure. The competing risks model is an extension of the standard survival analysis model in which failures from different causes are distinguished. Strategies for modeling competing risks functionals, such as the cause-specific hazards (CSH) and the cumulative incidence function (CIF), generally assume that the cause of failure is known for all patients, but this is not always the case. Some methods for regression with missing causes under the MAR assumption have already been proposed, especially for semi-parametric modeling of the CSH. But other useful models have received little attention, and MNAR modeling and sensitivity analysis approaches have never been considered in this setting. We propose a general framework for semi-parametric regression modeling of the CIF under MAR using inverse probability weighting and multiple imputation ideas. Also under MAR, we propose a direct likelihood approach for parametric regression modeling of the CSH and the CIF. Furthermore, we consider MNAR pattern-mixture models in the context of sensitivity analyses. In the competing risks literature, a starting point for methodological developments for handling missing causes was a stage II breast cancer randomized clinical trial in which 23% of the deceased women had missing cause of death. We use these data to illustrate the practical value of the proposed approaches. Données manquantes Données longitudinales Risques concurrents Régression Réponses manquantes Sorties d'étude Cause d'évènement manquante Imputation multiple Estimateurs pondérés Maximum de vraisemblance Modèle de mélange de profils Analyse de sensibilité Modèle linéaire mixte Fonction d'incidence cumulée Risque cause-spécifique Pseudo-valeurs Missing data Longitudinal data Competing risks Regression Missing outcomes Drop-out Missing cause of failure Multiple imputation Inverse probability weighting Direct likelihood Pattern-mixture model Sensitivity analysis Linear mixed model Cumulative incidence function Cause-specific hazard Pseudo-values
47	Analyse harmonique et Estimation spectrale sur la Sphère.<br />Applications à l'étude du Fond diffus cosmologique. Guilloux, Frédéric 08 December 2008 (has links) (PDF) Cette thèse porte sur l'utilisation d'ondelettes de seconde génération pour l'étude statistique de champs aléatoires sphériques. Parmi les phénomènes modélisables par un tel champ, on s'intéressera en particulier au Fond diffus cosmologique (CMB).<br /><br />La localisation des needlets (récente construction d'ondelettes) sur la sphère est étudiée et optimisée en terme de concentration spatiale et d'estimation statistique. Ces fonctions sont ensuite utilisées pour construire un nouvel estimateur du spectre de puissance angulaire. L'examen des propriété de cet estimateur, d'un point de vue théorique (dans l'asymptotique des hautes fréquences angulaires) et pratique, montre qu'il améliore les méthodes existantes dans un modèle réaliste comportant des données manquantes et un bruit hétéroscédastique. A côté de l'estimation spectrale, l'utilisation des needlets est également introduite dans un problème de séparation de sources.<br /><br />Après quatre chapitres introductifs (dédiés respectivement aux aspects physiques, analytiques et statistiques de l'étude du CMB, puis à une présentation d'ensemble des résultats), quatre articles de revue (en collaboration) sont présentés : "Practical wavelet design on the sphere" ; "CMB power spectrum estimation using wavelets" ; "Spectral estimation on the sphere with needlets: high frequency asymptotics" et "A full sky, low foreground, high resolution CMB map from WMAP". [MATH] Mathematics [MATH] Mathématiques Analyse sur la sphère Ondelettes (needlets) Spectre de puissance angulaire Estimation spectrale Données manquantes~ Modèle hétéroscédastique Asymptotique des hautes fréquences Séparation de sources

Page generated in 0.4382 seconds