Global ETD Search

121	Estimation des paramètres pour les séquences de Markov avec application dans des problèmes médico-économiques / On parameter estimation for Markov sequences and applications in health economics Motrunich, Anastasiia 28 September 2015 (has links) Dans la première partie de cette thèse, nous considérons plusieurs problèmes d'estimation de paramètre de dimension finie pour les séquences de Markov dans l'asymptotique des grands échantillons. Le comportement asymptotique des estimateurs bayésiens et les estimateurs obtenus par la méthode des moments sont décrits. Nous montrons que sous les conditions de régularité ces estimateurs sont consistants et asymptotiquement normaux et que l'estimateur bayésien est asymptotiquement efficace. Les estimateur-processus du maximum de vraisemblance un-pas et deux-pas sont étudiés. Ces estimateurs nous permettent de construire des estimateurs asymptotiquement efficaces sur la base de certainsestimateurs préliminaires, par exemple, les estimateurs obtenus par la méthode des moments ou l'estimateur deBayes et la structure de l'estimateur du maximum de vraisemblance un-pas. Nous proposons notamment des processus autorégressifs non linéaires comme exemple et nous illustrons les propriétés de ces estimateurs à l'aide de simulations numériques. Dans la deuxième partie, nous donnons les applications de processus de Markov en économie de la santé. Nous comparons les modèles de Markov homogènes et non-homogènes pour l'analyse coût-efficacité de l'utilisation depansements transparents contenant un gel de gluconate de chlorhexidine par rapport aux pansements transparents standard. Le pansement antimicrobien protège les accès vasculaire centrale et réduit le risque de bactériémies liées aux cathéters. L'impact de l'approche de modélisation sur la décision d'adopter des pansements antimicrobiens pour les patients gravement malades est discuté. / In the first part of this dissertation we consider several problems of finite-dimensional parameter estimation for Markov sequences in the asymptotics of large samples. The asymptotic behavior of the Bayesian estimators and the estimators of the method of moments are described. It is shown that under regularity conditions these estimators are consistent and asymptotically normal. We show that the Bayesian estimator is asymptotically efficient. The one-step and two-step maximum likelihood estimator-processes are studied. These estimators allow us to construct the asymptotically efficient estimators based on some preliminary estimators, say, the estimators of the method of moments or Bayes estimator and the one-step maximum likelihood estimator structure. We propose particular non-linear autoregressive processes as examples and we illustrate the properties of these estimators with the help of numerical simulations. In the second part we give theapplications of Markov processes in health economics. We compare homogeneous and non-homogeneous Markov models for cost-effectiveness analysis of routine use of transparent dressings containing a chlorhexidine gluconate gel pad versus standard transparent dressings. The antimicrobial dressing protects central vascular accesses reducing the risk of catheter-related bloodstream infections. The impact of the modeling approach on the decision of adopting antimicrobialdressings for critically-ill patients is discussed. Séquences de Markov Estimation de paramètre Estimateur de Bayes Economie de la santé Analyse coût-efficacité Bactériémies liées aux cathéters Markov sequences Parameter estimation Bayesian estimator Health economics Cost-effectiveness analysis Catheter-related bloodstream infection 519.233
122	Contribution au traitement du signal pour le contrôle de santé in situ de structures composites : application au suivi de température et à l’analyse des signaux d’émission acoustique / Signal processing for in situ Structural Health Monitoring of composite structures : application to the estimation of the temperature dynamics and to the study of acoustic emission Hamdi, Seif Eddine 12 October 2012 (has links) Le contrôle de santé structural ou Structural Health Monitoring (SHM) des matériaux constitue une démarche fondamentale pour la maîtrise de la durabilité et de la fiabilité des structures en service. Au-delà des enjeux industriels et humains qui ne cessent de s’accroître en termes de sécurité et de fiabilité, le contrôle de santé doit faire face à des exigences de plus en plus élaborées. Les nouvelles stratégies de contrôle de santé doivent non seulement détecter et identifier l’endommagement mais aussi quantifier les différents phénomènes qui en sont responsables. Pour atteindre cet objectif, il est nécessaire d’accéder à une meilleure connaissance des processus d’endommagement. Par ailleurs, ceux-ci surviennent fréquemment sous l’effet de sollicitations mécaniques et environnementales. Ainsi, il est indispensable, d’une part, d’élaborer des méthodes de traitement des signaux permettant d’estimer les effets des conditions environnementales et opérationnelles, dans un contexte de l’analyse des événements précurseurs des mécanismes d’endommagement, et, d’autre part, de définir les descripteurs d’endommagement les plus adaptés à cette analyse. Cette étude propose donc des méthodes de traitement du signal permettant d’atteindre cet objectif, dans un premier temps, pour l’estimation des effets externes sur les ondes multidiffusées dans un contexte de contrôle de santé actif et, dans un second temps, pour l’extraction d’un indicateur d’endommagement à partir de l’analyse des signaux d’émission acoustique dans un contexte de contrôle de santé passif. Dans la première partie de ce travail, quatre méthodes de traitement du signal sont proposées. Celles-ci permettent de prendre en compte les variations des conditions environnementales dans la structure, qui dans le cadre de cette thèse, se sont limitées au cas particulier du changement de la température. En effet, les variations de température ont pour effet de modifier les propriétés mécaniques du matériau et par conséquent la vitesse de propagation des ondes ultrasonores. Ce phénomène entraîne alors une dilatation temporelle des signaux acoustiques qu’il convient d’estimer afin de suivre les variations de température. Quatre estimateurs de coefficients de dilatation sont alors étudiés : Il s’agit de l’intercorrélation à fenêtre glissante, utilisée comme méthode de référence, la méthode du stretching, l’estimateur à variance minimale et la transformée exponentielle. Les deux premières méthodes ont été déjà validées dans la littérature alors que les deux dernières ont été développées spécifiquement dans le cadre de cette étude. Par la suite, une évaluation statistique de la qualité des estimations est menée grâce à des simulations de Monte-Carlo utilisant des signaux de synthèse. Ces signaux sont basés sur un modèle de signal multidiffusé prenant en compte l’influence de la température. Une estimation sommaire de la complexité algorithmique des méthodes de traitement du signal complète également cette phase d’évaluation. Enfin, la validation expérimentale des méthodes d’estimation est réalisée sur deux types de matériaux : Tout d’abord, dans une plaque d’aluminium, milieu homogène dont les caractéristiques sont connues, puis, dans un second temps dans un milieu fortement hétérogène prenant la forme d’une plaque composite en verre/epoxy. Dans ces expériences, les plaques sont soumises à différentes températures dans un environnement thermique contrôlé. Les estimations de température sont alors confrontées à un modèle analytique décrivant le comportement du matériau. La seconde partie de ce travail concerne la caractérisation in situ des mécanismes d’endommagement par émission acoustique dans des matériaux hétérogènes. Les sources d’émission acoustique génèrent des signaux non stationnaires... / Structural health monitoring (SHM) of materials is a fundamental measure to master thedurability and the reliability of structures in service. Beyond the industrial and human issuesever increasing in terms of safety and reliability, health monitoring must cope with demandsincreasingly sophisticated. New health monitoring strategies must not only detect and identifydamage but also quantify the various phenomena involved in it. To achieve this objective, itis necessary to reach a better understanding of the damage process. Moreover, they frequentlyoccur as a result of mechanical and environmental stresses. Thus, it is essential, first, to developsignal processing methods for estimating the effects of environmental and operational conditions,in the context of the analysis of precursor events of damage mechanisms, and on theother hand, to define the damage descriptors that are the most suitable to this analysis. Thisstudy proposes signal processing methods to achieve this goal. At first, to the estimation ofexternal effects on the scattered waves in an active health control context, in a second step, tothe extraction of a damage indicator from the signals analysis of acoustic emission in a passivehealth monitoring context.In the first part of this work, four signal processing methods are proposed. These allow takinginto account the variation of environmental conditions in the structure, which in this thesis,were limited to the particular case of temperature change. Indeed, temperature changes have theeffect of altering the mechanical properties of the material and therefore the propagation velocityof ultrasonic waves. This phenomenon then causes a dilation of the acoustic signals that shouldbe estimated in order to monitor changes in temperature. Four estimators of dilation coefficientsare then studied: the intercorrelation sliding window, used as reference method, the stretchingmethod, the minimum variance estimator and the exponential transform. The first two methodshave already been validated in the literature while the latter two were developed specificallyin the context of this study. Thereafter, a statistical evaluation of the quality of estimates isconducted through Monte Carlo simulations using synthetic signals. These signals are basedon a scattered signal model taking into account the influence of temperature. A raw estimateof the computational complexity of signal processing methods also completes this evaluationphase. Finally, the experimental validation of estimation methods is performed on two types ofmaterial: First, in an aluminum plate, homogeneous medium whose characteristics are known,then, in a second step in a highly heterogeneous environment in the form of a compositeglass/epoxy plate. In these experiments, the plates are subjected to different temperatures in acontrolled thermal environment. The temperature estimates are then faced with an analyticalmodel describing the material behavior.The second part of this work concerns in situ characterization of damage mechanisms byacoustic emission in heterogeneous materials. Acoustic emission sources generate non-stationarysignals. The Hilbert-Huang transform is thus proposed for the discrimination of signals representativeof four typical sources of acoustic emission in composites: matrix cracking, debondingfiber/matrix, fiber breakage and delamination. A new time-frequency descriptor is then definedfrom the Hilbert-Huang transform and is introduced into an online classification algorithm. Amethod of unsupervised classification, based on the k-means method, is then used to discriminatethe sources of acoustic emission and the data segmentation quality is evaluated. Thesignals are recorded from blank samples, using piezoelectric sensors stuck to the surface of thematerial and sensitive samples (sensors integrated within the material)... Contrôle de santé structurale Intercorrélation à fenêtre glissante Stretching Transformée de Hilbert-Huang Fréquence instantanée Reconnaissance de formes Classification Endommagement Émission acoustique Ondes multidiffusées Structural health monitoring Exponential transform Hilbert-Huang transform Instantaneous frequency Pattern recognition Classification Damage Environmental and operational conditions Acoustic emission Scattered waves Maximum likelihood Stretching Intercorrelation sliding window
123	Caractérisation des limites fondamentales de l'erreur quadratique moyenne pour l'estimation de signaux comportant des points de rupture / Characterization of mean squared error fundamental limitations in parameter estimation of signals with change-points Bacharach, Lucien 28 September 2018 (has links) Cette thèse porte sur l'étude des performances d'estimateurs en traitement du signal, et s'attache en particulier à étudier les bornes inférieures de l'erreur quadratique moyenne (EQM) pour l'estimation de points de rupture, afin de caractériser le comportement d'estimateurs, tels que celui du maximum de vraisemblance (dans le contexte fréquentiste), mais surtout du maximum a posteriori ou de la moyenne conditionnelle (dans le contexte bayésien). La difficulté majeure provient du fait que, pour un signal échantillonné, les paramètres d'intérêt (à savoir les points de rupture) appartiennent à un espace discret. En conséquence, les résultats asymptotiques classiques (comme la normalité asymptotique du maximum de vraisemblance) ou la borne de Cramér-Rao ne s'appliquent plus. Quelques résultats sur la distribution asymptotique du maximum de vraisemblance provenant de la communauté mathématique sont actuellement disponibles, mais leur applicabilité à des problèmes pratiques de traitement du signal n'est pas immédiate. Si l'on décide de concentrer nos efforts sur l'EQM des estimateurs comme indicateur de performance, un travail important autour des bornes inférieures de l'EQM a été réalisé ces dernières années. Plusieurs études ont ainsi permis de proposer des inégalités plus précises que la borne de Cramér-Rao. Ces dernières jouissent en outre de conditions de régularité plus faibles, et ce, même en régime non asymptotique, permettant ainsi de délimiter la plage de fonctionnement optimal des estimateurs. Le but de cette thèse est, d'une part, de compléter la caractérisation de la zone asymptotique (en particulier lorsque le rapport signal sur bruit est élevé et/ou pour un nombre d'observations infini) dans un contexte d'estimation de points de rupture. D'autre part, le but est de donner les limites fondamentales de l'EQM d'un estimateur dans la plage non asymptotique. Les outils utilisés ici sont les bornes inférieures de l’EQM de la famille Weiss-Weinstein qui est déjà connue pour être plus précise que la borne de Cramér-Rao dans les contextes, entre autres, de l’analyse spectrale et du traitement d’antenne. Nous fournissons une forme compacte de cette famille dans le cas d’un seul et de plusieurs points de ruptures puis, nous étendons notre analyse aux cas où les paramètres des distributions sont inconnus. Nous fournissons également une analyse de la robustesse de cette famille vis-à-vis des lois a priori utilisées dans nos modèles. Enfin, nous appliquons ces bornes à plusieurs problèmes pratiques : données gaussiennes, poissonniennes et processus exponentiels. / This thesis deals with the study of estimators' performance in signal processing. The focus is the analysis of the lower bounds on the Mean Square Error (MSE) for abrupt change-point estimation. Such tools will help to characterize performance of maximum likelihood estimator in the frequentist context but also maximum a posteriori and conditional mean estimators in the Bayesian context. The main difficulty comes from the fact that, when dealing with sampled signals, the parameters of interest (i.e., the change points) lie on a discrete space. Consequently, the classical large sample theory results (e.g., asymptotic normality of the maximum likelihood estimator) or the Cramér-Rao bound do not apply. Some results concerning the asymptotic distribution of the maximum likelihood only are available in the mathematics literature but are currently of limited interest for practical signal processing problems. When the MSE of estimators is chosen as performance criterion, an important amount of work has been provided concerning lower bounds on the MSE in the last years. Then, several studies have proposed new inequalities leading to tighter lower bounds in comparison with the Cramér-Rao bound. These new lower bounds have less regularity conditions and are able to handle estimators’ MSE behavior in both asymptotic and non-asymptotic areas. The goal of this thesis is to complete previous results on lower bounds in the asymptotic area (i.e. when the number of samples and/or the signal-to-noise ratio is high) for change-point estimation but, also, to provide an analysis in the non-asymptotic region. The tools used here will be the lower bounds of the Weiss-Weinstein family which are already known in signal processing to outperform the Cramér-Rao bound for applications such as spectral analysis or array processing. A closed-form expression of this family is provided for a single and multiple change points and some extensions are given when the parameters of the distributions on each segment are unknown. An analysis in terms of robustness with respect to the prior influence on our models is also provided. Finally, we apply our results to specific problems such as: Gaussian data, Poisson data and exponentially distributed data. Bornes de Cramér-Rao Bornes de Weiss-Weinstein Estimation de paramètres Maximum de vraisemblance (MV) Maximum a posteriori (MAP) Cramér-Rao bounds Weiss-Weinstein bounds Parameter estimation Lower bounds on the mean squared error Maximum likelihood (ML) Maximum a posteriori (MAP),
124	Modélisation conjointe de trajectoire socioprofessionnelle individuelle et de la survie globale ou spécifique / Joint modeling of individual socio-professional trajectory and overall or cause-specific survival Karimi, Maryam 06 June 2016 (has links) Appartenir à une catégorie socio-économique moins élevée est généralement associé à une mortalité plus élevée pour de nombreuses causes de décès. De précédentes études ont déjà montré l’importance de la prise en compte des différentes dimensions des trajectoires socio-économiques au cours de la vie. L’analyse des trajectoires professionnelles constitue une étape importante pour mieux comprendre ces phénomènes. L’enjeu pour mesurer l’association entre les parcours de vie des trajectoires socio-économiques et la mortalité est de décomposer la part respective de ces facteurs dans l’explication du niveau de survie des individus. La complexité de l’interprétation de cette association réside dans la causalité bidirectionnelle qui la sous-tend: Les différentiels de mortalité sont-ils dus à des différentielsd’état de santé initial influençant conjointement la situation professionnelle et la mortalité, ou l’évolution professionnelle influence-t-elle directement l’état de santé puis la mortalité?Les méthodes usuelles ne tiennent pas compte de l’interdépendance des changements de situation professionnelle et de la bidirectionnalité de la causalité qui conduit à un biais important dans l’estimation du lien causale entre situation professionnelle et mortalité. Par conséquent, il est nécessaire de proposer des méthodes statistiques qui prennent en compte des mesures répétées (les professions) simultanément avec les variables de survie. Cette étude est motivée par la base de données Cosmop-DADS qui est un échantillon de la population salariée française.Le premier objectif de cette thèse était d’examiner l’ensemble des trajectoires professionnelles avec une classification professionnelle précise, au lieu d’utiliser un nombre limité d’états dans un parcours professionnel qui a été considéré précédemment. A cet effet, nous avons défini des variables dépendantes du temps afinde prendre en compte différentes dimensions des trajectoires professionnelles, à travers des modèles dits de "life-course", à savoir critical period, accumulation model et social mobility model, et nous avons mis en évidence l’association entre les trajectoires professionnelles et la mortalité par cause en utilisant ces variables dans un modèle de Cox.Le deuxième objectif a consisté à intégrer les épisodes professionnel comme un sous-modèle longitudinal dans le cadre des modèles conjoints pour réduire le biais issude l’inclusion des covariables dépendantes du temps endogènes dans le modèle de Cox. Nous avons proposé un modèle conjoint pour les données longitudinales nominaleset des données de risques concurrents dans une approche basée sur la vraisemblance. En outre, nous avons proposé une approche de type méta-analyse pour résoudre les problèmes liés au temps des calculs dans les modèles conjoints appliqués à l’analyse des grandes bases de données. Cette approche consiste à combiner les résultats issus d’analyses effectuées sur les échantillons stratifiés indépendants. Dans la même perspective de l’utilisation du modèle conjoint sur les grandes bases de données, nous avons proposé une procédure basée sur l’avantage computationnel de la régression de Poisson.Cette approche consiste à trouver les trajectoires typesà travers les méthodes de la classification, et d’appliquerle modèle conjoint sur ces trajectoires types. / Being in low socioeconomic position is associated with increased mortality risk from various causes of death. Previous studies have already shown the importance of considering different dimensions of socioeconomic trajectories across the life-course. Analyses of professional trajectories constitute a crucial step in order to better understand the association between socio-economic position and mortality. The main challenge in measuring this association is then to decompose the respectiveshare of these factors in explaining the survival level of individuals. The complexity lies in the bidirectional causality underlying the observed associations:Are mortality differentials due to differences in the initial health conditions that are jointly influencing employment status and mortality, or the professional trajectory influences directly health conditions and then mortality?Standard methods do not consider the interdependence of changes in occupational status and the bidirectional causal effect underlying the observed association and that leads to substantial bias in estimating the causal link between professional trajectory and mortality. Therefore, it is necessary to propose statistical methods that consider simultaneously repeated measurements (careers) and survivalvariables. This study was motivated by the Cosmop-DADS database, which is a sample of the French salaried population.The first aim of this dissertation was to consider the whole professional trajectories and an accurate occupational classification, instead of using limitednumber of stages during life course and a simple occupational classification that has been considered previously. For this purpose, we defined time-dependent variables to capture different life course dimensions, namely critical period, accumulation model and social mobility model, and we highlighted the association between professional trajectories and cause-specific mortality using the definedvariables in a Cox proportional hazards model.The second aim was to incorporate the employment episodes in a longitudinal sub-model within the joint model framework to reduce the bias resulting from the inclusion of internal time-dependent covariates in the Cox model. We proposed a joint model for longitudinal nominal outcomes and competing risks data in a likelihood-based approach. In addition, we proposed an approach mimicking meta-analysis to address the calculation problems in joint models and large datasets, by extracting independent stratified samples from the large dataset, applying the joint model on each sample and then combining the results. In the same objective, that is fitting joint model on large-scale data, we propose a procedure based on the appeal of the Poisson regression model. This approach consist of finding representativetrajectories by means of clustering methods and then applying the joint model on these representative trajectories. Modèles conjoints Données longitudinales Risques concurrents Risque cause-spécifique Modèle de Cox Algorithme EM Maximum de vraisemblance Régression de Poisson Effets aléatoires Joint models Generalized linear mixed models Longitudinal data Copmeting risks Cause-specific hazard Cox model EM algorithm Maximum likelihood Poisson regression Random effects
125	Route choice and traffic equilibrium modeling in multi-modal and activity-based networks Zimmermann, Maëlle 06 1900 (has links) No description available. Modèle markovien d'équilibre de trafic Estimation par maximum de vraisemblance Programmation dynamique Réseaux multi-modaux Recursive route choice models Maximum likelihood estimation Dynamic programming Multi-modal route choice Markovian traffic assignment model Activity-based travel demand
126	Étude de modèles spatiaux et spatio-temporels / Spatial and spatio-temporal models and application Cisse, Papa Ousmane 11 December 2018 (has links) Ce travail porte sur les séries spatiales. On étudie les phénomènes dont l’observation est un processus aléatoire indexé par un ensemble spatial. Dans cette thèse on s’intéresse aux données bidimensionnelles régulièrement dispersées dans l’espace, on travaille alors dans un rectangle régulier (sur Z2) . Cette modélisation vise donc à construire des représentations des systèmes suivant leurs dimensions spatiales et à ses applications dans de nombreux domaines tels que la météorologie, l’océanographie, l’agronomie, la géologie, l’épidémiologie, ou encore l’économétrie etc. La modélisation spatiale permet d’aborder la question importante de la prédiction de la valeur d’un champ aléatoire en un endroit donné d’une région. On suppose que la valeur à prédire dépend des observations dans les régions voisines. Ceci montre la nécessité de tenir compte, en plus de leurs caractéristiques statistiques, des relations de dépendance spatiale entre localisations voisines, pour rendre compte de l’ensemble des structures inhérentes aux données. Dans la plupart des champs d’applications, on est souvent confronté du fait que l’une des sources majeures de fluctuations est la saisonnalité. Dans nos travaux on s’intéresse particulièrement à ce phénomène de saisonnalité dans les données spatiales. Faire une modélisation mathématique en tenant en compte l’interaction spatiale des différents points ou localités d’une zone entière serait un apport considérable. En effet un traitement statistique qui prendrait en compte cet aspect et l’intègre de façon adéquat peut corriger une perte d’information, des erreurs de prédictions, des estimations non convergentes et non efficaces. / This thesis focuses on the time series in addition to being observed over time, also have a spatial component. By definition, a spatiotemporal phenomenon is a phenomenon which involves a change in space and time. The spatiotemporal model-ling therefore aims to construct representations of systems taking into account their spatial and temporal dimensions. It has applications in many fields such as meteorology, oceanography, agronomy, geology, epidemiology, image processing or econometrics etc. It allows them to address the important issue of predicting the value of a random field at a given location in a region. Assume that the value depends predict observations in neighbouring regions. This shows the need to consider, in addition to their statistical characteristics, relations of spatial dependence between neighbouring locations, to account for all the inherent data structures. In the exploration of spatiotemporal data, refinement of time series models is to explicitly incorporate the systematic dependencies between observations for a given region, as well as dependencies of a region with neighboring regions. In this context, the class of spatial models called spatiotemporal auto-regressive models (Space-Time Autoregressive models) or STAR was introduced in the early 1970s. It will then be generalized as GSTAR model (Generalized Space-Time Autoregressive models). In most fields of applications, one is often confronted by the fact that one of the major sources of fluctuations is seasonality. In our work we are particularly interested in the phenomenon of seasonality in spatiotemporal data. We develop a new class of models and investigates the properties and estimation methods. Make a mathematical model taking into account the spatial inter-action of different points or locations of an entire area would be a significant contribution. Indeed, a statistical treatment that takes into account this aspect and integrates appropriate way can correct a loss of information, errors in predictions, non-convergent and inefficient estimates. Processus spatiaux Models spatio-temporels Saisonalité Mémoire longue Densité spectrale Autocovariance spectral Estimation Méthode de regression Méthode d’estimation de Whittle Maximum de vraisemblance Simulation de Monte Carlo Spatial processes Seasonality Long memory Spectral density Spatial autocovariance Regression method Whittle method MLE method Monte Carlo study 510
127	Regression modeling with missing outcomes : competing risks and longitudinal data / Contributions aux modèles de régression avec réponses manquantes : risques concurrents et données longitudinales Moreno Betancur, Margarita 05 December 2013 (has links) Les données manquantes sont fréquentes dans les études médicales. Dans les modèles de régression, les réponses manquantes limitent notre capacité à faire des inférences sur les effets des covariables décrivant la distribution de la totalité des réponses prévues sur laquelle porte l'intérêt médical. Outre la perte de précision, toute inférence statistique requière qu'une hypothèse sur le mécanisme de manquement soit vérifiée. Rubin (1976, Biometrika, 63:581-592) a appelé le mécanisme de manquement MAR (pour les sigles en anglais de « manquant au hasard ») si la probabilité qu'une réponse soit manquante ne dépend pas des réponses manquantes conditionnellement aux données observées, et MNAR (pour les sigles en anglais de « manquant non au hasard ») autrement. Cette distinction a des implications importantes pour la modélisation, mais en général il n'est pas possible de déterminer si le mécanisme de manquement est MAR ou MNAR à partir des données disponibles. Par conséquent, il est indispensable d'effectuer des analyses de sensibilité pour évaluer la robustesse des inférences aux hypothèses de manquement.Pour les données multivariées incomplètes, c'est-à-dire, lorsque l'intérêt porte sur un vecteur de réponses dont certaines composantes peuvent être manquantes, plusieurs méthodes de modélisation sous l'hypothèse MAR et, dans une moindre mesure, sous l'hypothèse MNAR ont été proposées. En revanche, le développement de méthodes pour effectuer des analyses de sensibilité est un domaine actif de recherche. Le premier objectif de cette thèse était de développer une méthode d'analyse de sensibilité pour les données longitudinales continues avec des sorties d'étude, c'est-à-dire, pour les réponses continues, ordonnées dans le temps, qui sont complètement observées pour chaque individu jusqu'à la fin de l'étude ou jusqu'à ce qu'il sorte définitivement de l'étude. Dans l'approche proposée, on évalue les inférences obtenues à partir d'une famille de modèles MNAR dits « de mélange de profils », indexés par un paramètre qui quantifie le départ par rapport à l'hypothèse MAR. La méthode a été motivée par un essai clinique étudiant un traitement pour le trouble du maintien du sommeil, durant lequel 22% des individus sont sortis de l'étude avant la fin.Le second objectif était de développer des méthodes pour la modélisation de risques concurrents avec des causes d'évènement manquantes en s'appuyant sur la théorie existante pour les données multivariées incomplètes. Les risques concurrents apparaissent comme une extension du modèle standard de l'analyse de survie où l'on distingue le type d'évènement ou la cause l'ayant entrainé. Les méthodes pour modéliser le risque cause-spécifique et la fonction d'incidence cumulée supposent en général que la cause d'évènement est connue pour tous les individus, ce qui n'est pas toujours le cas. Certains auteurs ont proposé des méthodes de régression gérant les causes manquantes sous l'hypothèse MAR, notamment pour la modélisation semi-paramétrique du risque. Mais d'autres modèles n'ont pas été considérés, de même que la modélisation sous MNAR et les analyses de sensibilité. Nous proposons des estimateurs pondérés et une approche par imputation multiple pour la modélisation semi-paramétrique de l'incidence cumulée sous l'hypothèse MAR. En outre, nous étudions une approche par maximum de vraisemblance pour la modélisation paramétrique du risque et de l'incidence sous MAR. Enfin, nous considérons des modèles de mélange de profils dans le contexte des analyses de sensibilité. Un essai clinique étudiant un traitement pour le cancer du sein de stade II avec 23% des causes de décès manquantes sert à illustrer les méthodes proposées. / Missing data are a common occurrence in medical studies. In regression modeling, missing outcomes limit our capability to draw inferences about the covariate effects of medical interest, which are those describing the distribution of the entire set of planned outcomes. In addition to losing precision, the validity of any method used to draw inferences from the observed data will require that some assumption about the mechanism leading to missing outcomes holds. Rubin (1976, Biometrika, 63:581-592) called the missingness mechanism MAR (for “missing at random”) if the probability of an outcome being missing does not depend on missing outcomes when conditioning on the observed data, and MNAR (for “missing not at random”) otherwise. This distinction has important implications regarding the modeling requirements to draw valid inferences from the available data, but generally it is not possible to assess from these data whether the missingness mechanism is MAR or MNAR. Hence, sensitivity analyses should be routinely performed to assess the robustness of inferences to assumptions about the missingness mechanism. In the field of incomplete multivariate data, in which the outcomes are gathered in a vector for which some components may be missing, MAR methods are widely available and increasingly used, and several MNAR modeling strategies have also been proposed. On the other hand, although some sensitivity analysis methodology has been developed, this is still an active area of research. The first aim of this dissertation was to develop a sensitivity analysis approach for continuous longitudinal data with drop-outs, that is, continuous outcomes that are ordered in time and completely observed for each individual up to a certain time-point, at which the individual drops-out so that all the subsequent outcomes are missing. The proposed approach consists in assessing the inferences obtained across a family of MNAR pattern-mixture models indexed by a so-called sensitivity parameter that quantifies the departure from MAR. The approach was prompted by a randomized clinical trial investigating the benefits of a treatment for sleep-maintenance insomnia, from which 22% of the individuals had dropped-out before the study end. The second aim was to build on the existing theory for incomplete multivariate data to develop methods for competing risks data with missing causes of failure. The competing risks model is an extension of the standard survival analysis model in which failures from different causes are distinguished. Strategies for modeling competing risks functionals, such as the cause-specific hazards (CSH) and the cumulative incidence function (CIF), generally assume that the cause of failure is known for all patients, but this is not always the case. Some methods for regression with missing causes under the MAR assumption have already been proposed, especially for semi-parametric modeling of the CSH. But other useful models have received little attention, and MNAR modeling and sensitivity analysis approaches have never been considered in this setting. We propose a general framework for semi-parametric regression modeling of the CIF under MAR using inverse probability weighting and multiple imputation ideas. Also under MAR, we propose a direct likelihood approach for parametric regression modeling of the CSH and the CIF. Furthermore, we consider MNAR pattern-mixture models in the context of sensitivity analyses. In the competing risks literature, a starting point for methodological developments for handling missing causes was a stage II breast cancer randomized clinical trial in which 23% of the deceased women had missing cause of death. We use these data to illustrate the practical value of the proposed approaches. Données manquantes Données longitudinales Risques concurrents Régression Réponses manquantes Sorties d'étude Cause d'évènement manquante Imputation multiple Estimateurs pondérés Maximum de vraisemblance Modèle de mélange de profils Analyse de sensibilité Modèle linéaire mixte Fonction d'incidence cumulée Risque cause-spécifique Pseudo-valeurs Missing data Longitudinal data Competing risks Regression Missing outcomes Drop-out Missing cause of failure Multiple imputation Inverse probability weighting Direct likelihood Pattern-mixture model Sensitivity analysis Linear mixed model Cumulative incidence function Cause-specific hazard Pseudo-values
128	Réduction de dimension en statistique et application en imagerie hyper-spectrale Girard, Robin 26 June 2008 (has links) (PDF) Cette thèse est consacrée à l'analyse statistique de données en grande dimension. Nous nous intéressons à trois problèmes statistiques motivés par des applications médicales : la classification supervisée de courbes, la segmentation supervisée d'images hyperspectrales et la segmentation non-supervisée d'images hyperspectrales. Les procédures développées reposent pour la plupart sur la théorie des tests d'hypothèses (tests multiples, minimax, robustes et fonctionnels) et la théorie de l'apprentissage statistique. Ces théories sont introduites dans une première partie. Nous nous intéressons, dans la deuxième partie, à la classification supervisée de données gaussiennes en grande dimension. Nous proposons une procédure de classification qui repose sur une méthode de réduction de dimension et justifions cette procédure sur le plan pratique et théorique. Dans la troisième et dernière partie, nous étudions le problème de segmentation d'images hyper-spectrales. D'une part, nous proposons un algorithme de segmentation supervisée reposant à la fois sur une analyse multi-échelle, une estimation par maximum de vraisemblance pénalisée, et une procédure de réduction de dimension. Nous justifions cet algorithme par des résultats théoriques et des applications pratiques. D'autre part, nous proposons un algorithme de segmentation non supervisée impliquant une décomposition en ondelette des spectres observées en chaque pixel, un lissage spatial par croissance adaptative de régions et une extraction des frontières par une méthode de vote majoritaire. [MATH] Mathematics [MATH] Mathématiques segmentation traitement d'images images hyper-spectrales imagerie médicale détection<br />de contours transformées en ondelettes réduction de dimension données fonctionnelles maximum de vraisemblance pénalisée mixlet <br />Lissage adaptatif perturbation de règle de décision
129	Contribution à la statistique spatiale et l'analyse de données fonctionnelles / Contribution to spatial statistics and functional data analysis Ahmed, Mohamed Salem 12 December 2017 (has links) Ce mémoire de thèse porte sur la statistique inférentielle des données spatiales et/ou fonctionnelles. En effet, nous nous sommes intéressés à l’estimation de paramètres inconnus de certains modèles à partir d’échantillons obtenus par un processus d’échantillonnage aléatoire ou non (stratifié), composés de variables indépendantes ou spatialement dépendantes.La spécificité des méthodes proposées réside dans le fait qu’elles tiennent compte de la nature de l’échantillon étudié (échantillon stratifié ou composé de données spatiales dépendantes).Tout d’abord, nous étudions des données à valeurs dans un espace de dimension infinie ou dites ”données fonctionnelles”. Dans un premier temps, nous étudions les modèles de choix binaires fonctionnels dans un contexte d’échantillonnage par stratification endogène (échantillonnage Cas-Témoin ou échantillonnage basé sur le choix). La spécificité de cette étude réside sur le fait que la méthode proposée prend en considération le schéma d’échantillonnage. Nous décrivons une fonction de vraisemblance conditionnelle sous l’échantillonnage considérée et une stratégie de réduction de dimension afin d’introduire une estimation du modèle par vraisemblance conditionnelle. Nous étudions les propriétés asymptotiques des estimateurs proposées ainsi que leurs applications à des données simulées et réelles. Nous nous sommes ensuite intéressés à un modèle linéaire fonctionnel spatial auto-régressif. La particularité du modèle réside dans la nature fonctionnelle de la variable explicative et la structure de la dépendance spatiale des variables de l’échantillon considéré. La procédure d’estimation que nous proposons consiste à réduire la dimension infinie de la variable explicative fonctionnelle et à maximiser une quasi-vraisemblance associée au modèle. Nous établissons la consistance, la normalité asymptotique et les performances numériques des estimateurs proposés.Dans la deuxième partie du mémoire, nous abordons des problèmes de régression et prédiction de variables dépendantes à valeurs réelles. Nous commençons par généraliser la méthode de k-plus proches voisins (k-nearest neighbors; k-NN) afin de prédire un processus spatial en des sites non-observés, en présence de co-variables spatiaux. La spécificité du prédicteur proposé est qu’il tient compte d’une hétérogénéité au niveau de la co-variable utilisée. Nous établissons la convergence presque complète avec vitesse du prédicteur et donnons des résultats numériques à l’aide de données simulées et environnementales.Nous généralisons ensuite le modèle probit partiellement linéaire pour données indépendantes à des données spatiales. Nous utilisons un processus spatial linéaire pour modéliser les perturbations du processus considéré, permettant ainsi plus de flexibilité et d’englober plusieurs types de dépendances spatiales. Nous proposons une approche d’estimation semi paramétrique basée sur une vraisemblance pondérée et la méthode des moments généralisées et en étudions les propriétés asymptotiques et performances numériques. Une étude sur la détection des facteurs de risque de cancer VADS (voies aéro-digestives supérieures)dans la région Nord de France à l’aide de modèles spatiaux à choix binaire termine notre contribution. / This thesis is about statistical inference for spatial and/or functional data. Indeed, weare interested in estimation of unknown parameters of some models from random or nonrandom(stratified) samples composed of independent or spatially dependent variables.The specificity of the proposed methods lies in the fact that they take into considerationthe considered sample nature (stratified or spatial sample).We begin by studying data valued in a space of infinite dimension or so-called ”functionaldata”. First, we study a functional binary choice model explored in a case-controlor choice-based sample design context. The specificity of this study is that the proposedmethod takes into account the sampling scheme. We describe a conditional likelihoodfunction under the sampling distribution and a reduction of dimension strategy to definea feasible conditional maximum likelihood estimator of the model. Asymptotic propertiesof the proposed estimates as well as their application to simulated and real data are given.Secondly, we explore a functional linear autoregressive spatial model whose particularityis on the functional nature of the explanatory variable and the structure of the spatialdependence. The estimation procedure consists of reducing the infinite dimension of thefunctional variable and maximizing a quasi-likelihood function. We establish the consistencyand asymptotic normality of the estimator. The usefulness of the methodology isillustrated via simulations and an application to some real data.In the second part of the thesis, we address some estimation and prediction problemsof real random spatial variables. We start by generalizing the k-nearest neighbors method,namely k-NN, to predict a spatial process at non-observed locations using some covariates.The specificity of the proposed k-NN predictor lies in the fact that it is flexible and allowsa number of heterogeneity in the covariate. We establish the almost complete convergencewith rates of the spatial predictor whose performance is ensured by an application oversimulated and environmental data. In addition, we generalize the partially linear probitmodel of independent data to the spatial case. We use a linear process for disturbancesallowing various spatial dependencies and propose a semiparametric estimation approachbased on weighted likelihood and generalized method of moments methods. We establishthe consistency and asymptotic distribution of the proposed estimators and investigate thefinite sample performance of the estimators on simulated data. We end by an applicationof spatial binary choice models to identify UADT (Upper aerodigestive tract) cancer riskfactors in the north region of France which displays the highest rates of such cancerincidence and mortality of the country. Modèle à choix binaire Analyses de données fonctionnelles ´Echantillonnage basé sur le choix ´Echantillonnage Cas-Témoin Modèle linéaire fonctionnel Processus auto-régressif spatial Quasi-maximum de vraisemblance Statistique Non-paramétrique Régression, Prédiction K-plus proches voisins Estimateur à Noyau Processus spatial Econométrie spatiale Estimation Semi-paramétrique Méthodes des moments généralisées Binary choice model Functional data analysis Choice-based sampling Case-control Functional Linear Model Spatial Autoregressive Process Quasi-maximum likelihood estimator Nonparametric statistics Regression Prediction K-nearest neighbors Kernel estimate Spatial process Spatial econometrics Semi-parametric estimation Generalized method of moments
130	Towards meaningful and data-efficient learning : exploring GAN losses, improving few-shot benchmarks, and multimodal video captioning Huang, Gabriel 09 1900 (has links) Ces dernières années, le domaine de l’apprentissage profond a connu des progrès énormes dans des applications allant de la génération d’images, détection d’objets, modélisation du langage à la réponse aux questions visuelles. Les approches classiques telles que l’apprentissage supervisé nécessitent de grandes quantités de données étiquetées et spécifiques à la tâches. Cependant, celles-ci sont parfois coûteuses, peu pratiques, ou trop longues à collecter. La modélisation efficace en données, qui comprend des techniques comme l’apprentissage few-shot (à partir de peu d’exemples) et l’apprentissage self-supervised (auto-supervisé), tentent de remédier au manque de données spécifiques à la tâche en exploitant de grandes quantités de données plus “générales”. Les progrès de l’apprentissage profond, et en particulier de l’apprentissage few-shot, s’appuient sur les benchmarks (suites d’évaluation), les métriques d’évaluation et les jeux de données, car ceux-ci sont utilisés pour tester et départager différentes méthodes sur des tâches précises, et identifier l’état de l’art. Cependant, du fait qu’il s’agit de versions idéalisées de la tâche à résoudre, les benchmarks sont rarement équivalents à la tâche originelle, et peuvent avoir plusieurs limitations qui entravent leur rôle de sélection des directions de recherche les plus prometteuses. De plus, la définition de métriques d’évaluation pertinentes peut être difficile, en particulier dans le cas de sorties structurées et en haute dimension, telles que des images, de l’audio, de la parole ou encore du texte. Cette thèse discute des limites et des perspectives des benchmarks existants, des fonctions de coût (training losses) et des métriques d’évaluation (evaluation metrics), en mettant l’accent sur la modélisation générative - les Réseaux Antagonistes Génératifs (GANs) en particulier - et la modélisation efficace des données, qui comprend l’apprentissage few-shot et self-supervised. La première contribution est une discussion de la tâche de modélisation générative, suivie d’une exploration des propriétés théoriques et empiriques des fonctions de coût des GANs. La deuxième contribution est une discussion sur la limitation des few-shot classification benchmarks, certains ne nécessitant pas de généralisation à de nouvelles sémantiques de classe pour être résolus, et la proposition d’une méthode de base pour les résoudre sans étiquettes en phase de testing. La troisième contribution est une revue sur les méthodes few-shot et self-supervised de détection d’objets , qui souligne les limites et directions de recherche prometteuses. Enfin, la quatrième contribution est une méthode efficace en données pour la description de vidéo qui exploite des jeux de données texte et vidéo non supervisés. / In recent years, the field of deep learning has seen tremendous progress for applications ranging from image generation, object detection, language modeling, to visual question answering. Classic approaches such as supervised learning require large amounts of task-specific and labeled data, which may be too expensive, time-consuming, or impractical to collect. Data-efficient methods, such as few-shot and self-supervised learning, attempt to deal with the limited availability of task-specific data by leveraging large amounts of general data. Progress in deep learning, and in particular, few-shot learning, is largely driven by the relevant benchmarks, evaluation metrics, and datasets. They are used to test and compare different methods on a given task, and determine the state-of-the-art. However, due to being idealized versions of the task to solve, benchmarks are rarely equivalent to the original task, and can have several limitations which hinder their role of identifying the most promising research directions. Moreover, defining meaningful evaluation metrics can be challenging, especially in the case of high-dimensional and structured outputs, such as images, audio, speech, or text. This thesis discusses the limitations and perspectives of existing benchmarks, training losses, and evaluation metrics, with a focus on generative modeling—Generative Adversarial Networks (GANs) in particular—and data-efficient modeling, which includes few-shot and self-supervised learning. The first contribution is a discussion of the generative modeling task, followed by an exploration of theoretical and empirical properties of the GAN loss. The second contribution is a discussion of a limitation of few-shot classification benchmarks, which is that they may not require class semantic generalization to be solved, and the proposal of a baseline method for solving them without test-time labels. The third contribution is a survey of few-shot and self-supervised object detection, which points out the limitations and promising future research for the field. Finally, the fourth contribution is a data-efficient method for video captioning, which leverages unsupervised text and video datasets, and explores several multimodal pretraining strategies. self-supervised learning few-shot classification few-shot object detection low-data learning object detection instance segmentation representation learning residual network visual transformer Faster R-CNN DETR parametric adversarial divergence generative adversarial network variational auto-encoder maximum-likelihood structured prediction optimal discriminator mutual information implicit generative model multimodal pretraining dense video captioning cross-attention YouCook2 HowTo-100M Youtube-8M Recipe-1M Pascal VOC MSCOCO LVIS mutual information neural estimation apprentissage auto-supervisé classification few-shot détection d'objets few-shot apprentissage efficace en données segmentation en instances apprentissage de représentation réseau résiduel transformer visual divergences antagonistes paramétriques auto-encodeur variationnel maximum de vraisemblance prédiction structurée discriminateur optimal information mutuelle modèle génératif implicite pré-apprentissage multi-modal description dense de vidéo attention croisée ResNet ViT GAN VAE MINE

Search results