71 |
Analysis of Longitudinal Surveys with Missing ResponsesCarrillo Garcia, Ivan Adolfo January 2008 (has links)
Longitudinal surveys have emerged in recent years as an important data collection tool for population studies where the primary interest is to examine population changes over time at the individual level. The National Longitudinal Survey of Children and Youth (NLSCY), a large scale survey with a complex sampling design and conducted by Statistics Canada, follows a large group of children and youth over time and collects measurement on various indicators related to their educational, behavioral and psychological development. One of the major objectives of the study is to explore how such development is related to or affected by familial, environmental and economical factors.
The generalized estimating equation approach, sometimes better known as the GEE method, is the most popular statistical inference tool for longitudinal studies. The vast majority of existing literature on the GEE method, however, uses the method for non-survey settings; and issues related to complex sampling designs are ignored.
This thesis develops methods for the analysis of longitudinal surveys when the response variable contains missing values. Our methods are built within the GEE framework, with a major focus on using the GEE method when missing responses are handled through hot-deck imputation. We first argue why, and further show how, the survey weights can be incorporated into the so-called Pseudo GEE method under a joint randomization framework. The consistency of the resulting Pseudo GEE estimators with complete responses is established under the proposed framework.
The main focus of this research is to extend the proposed pseudo GEE method to cover cases where the missing responses are imputed through the hot-deck method. Both weighted and unweighted hot-deck imputation procedures are considered. The consistency of the pseudo GEE estimators under imputation for missing responses is established for both procedures. Linearization variance estimators are developed for the pseudo GEE estimators under the assumption that the finite population sampling fraction is small or negligible, a scenario often held for large scale population surveys.
Finite sample performances of the proposed estimators are investigated through an extensive simulation study. The results show that the pseudo GEE estimators and the linearization variance estimators perform well under several sampling designs and for both continuous response and binary response.
|
72 |
Analysis of Longitudinal Surveys with Missing ResponsesCarrillo Garcia, Ivan Adolfo January 2008 (has links)
Longitudinal surveys have emerged in recent years as an important data collection tool for population studies where the primary interest is to examine population changes over time at the individual level. The National Longitudinal Survey of Children and Youth (NLSCY), a large scale survey with a complex sampling design and conducted by Statistics Canada, follows a large group of children and youth over time and collects measurement on various indicators related to their educational, behavioral and psychological development. One of the major objectives of the study is to explore how such development is related to or affected by familial, environmental and economical factors.
The generalized estimating equation approach, sometimes better known as the GEE method, is the most popular statistical inference tool for longitudinal studies. The vast majority of existing literature on the GEE method, however, uses the method for non-survey settings; and issues related to complex sampling designs are ignored.
This thesis develops methods for the analysis of longitudinal surveys when the response variable contains missing values. Our methods are built within the GEE framework, with a major focus on using the GEE method when missing responses are handled through hot-deck imputation. We first argue why, and further show how, the survey weights can be incorporated into the so-called Pseudo GEE method under a joint randomization framework. The consistency of the resulting Pseudo GEE estimators with complete responses is established under the proposed framework.
The main focus of this research is to extend the proposed pseudo GEE method to cover cases where the missing responses are imputed through the hot-deck method. Both weighted and unweighted hot-deck imputation procedures are considered. The consistency of the pseudo GEE estimators under imputation for missing responses is established for both procedures. Linearization variance estimators are developed for the pseudo GEE estimators under the assumption that the finite population sampling fraction is small or negligible, a scenario often held for large scale population surveys.
Finite sample performances of the proposed estimators are investigated through an extensive simulation study. The results show that the pseudo GEE estimators and the linearization variance estimators perform well under several sampling designs and for both continuous response and binary response.
|
73 |
Novel computationally intelligent machine learning algorithms for data mining and knowledge discoveryGheyas, Iffat A. January 2009 (has links)
This thesis addresses three major issues in data mining regarding feature subset selection in large dimensionality domains, plausible reconstruction of incomplete data in cross-sectional applications, and forecasting univariate time series. For the automated selection of an optimal subset of features in real time, we present an improved hybrid algorithm: SAGA. SAGA combines the ability to avoid being trapped in local minima of Simulated Annealing with the very high convergence rate of the crossover operator of Genetic Algorithms, the strong local search ability of greedy algorithms and the high computational efficiency of generalized regression neural networks (GRNN). For imputing missing values and forecasting univariate time series, we propose a homogeneous neural network ensemble. The proposed ensemble consists of a committee of Generalized Regression Neural Networks (GRNNs) trained on different subsets of features generated by SAGA and the predictions of base classifiers are combined by a fusion rule. This approach makes it possible to discover all important interrelations between the values of the target variable and the input features. The proposed ensemble scheme has two innovative features which make it stand out amongst ensemble learning algorithms: (1) the ensemble makeup is optimized automatically by SAGA; and (2) GRNN is used for both base classifiers and the top level combiner classifier. Because of GRNN, the proposed ensemble is a dynamic weighting scheme. This is in contrast to the existing ensemble approaches which belong to the simple voting and static weighting strategy. The basic idea of the dynamic weighting procedure is to give a higher reliability weight to those scenarios that are similar to the new ones. The simulation results demonstrate the validity of the proposed ensemble model.
|
74 |
Modélisation statistique de l'impact des environnements académiques sur les croyances et la réussite des élèves au Chili / Statistical modeling of the impact of academic environments on student’s beliefs and achievement in ChileGiaconi Smoje, Valentina 26 September 2016 (has links)
Cette thèse de doctorat est consacrée à la modélisation statistique de l'impact des environnements académiques sur les croyances et la réussite des élèves au Chili. Nous contribuons au domaine de l'efficacité éducative avec une discussion statistique et deux études empiriques. La discussion statique questionne la façon de combiner les modèles multiniveaux avec des méthodes pour le biais de sélection et pour les données manquantes. Cette discussion statistique sera utilisée pour prendre des décisions méthodologiques dans les études empiriques. La première étude empirique consiste en une évaluation d'intervention de l'impact des cours de sciences sur les croyances des étudiants. La deuxième étude empirique concerne l'effet des écoles sur les trajectoires des scores de mathématiques et de lecture des élèves. Dans la partie statistique, nous avons décrit et analysé les méthodes d'ajustement linéaire et d'appariement des scores de propension pour modéliser le biais de sélection. En ce qui concerne les problèmes de données manquantes, nous avons analysé la méthode d'imputation multiple. Chacune de ces méthodes est compatible avec les modèles multi-niveaux. En revanche, l'utilisation combinée de ces méthodes pour des données hiérarchiques n'est pas résolu. Nous présentons alors une discussion statistique qui analyse et classe des stratégies pour combiner ces méthodes.La première étude empirique concerne l'influence des disciplines scientifiques qui s'intéressent à des objets vivants et non-vivants sur les croyances épistémiques et le sentiment d'auto-efficacité des étudiants de secondaire. Nous avons comparé, pour ces croyances, les étudiants qui ont suivi des cours de sciences à un groupe contrôle sur deux temps de mesure, à la fin des cours et 4 mois après. Nous avons constaté un effet positif du travail en laboratoire et des disciplines qui s'intéressent à des objets vivants (en contrôlant les variables confondues). Cette étude met en lumière des différences entre les disciplines qui s'intéressent à des objets vivant et des objets non-vivant qui devront être explorées.La deuxième étude empirique concerne l'effet des écoles sur les trajectoires des scores en mathématiques et en lecture des élèves. Le premier objectif est de décrire les caractéristiques des trajectoires et la variance expliquée par les écoles primaires et secondaires. Le deuxième objectif est de mesurer l'effet du type d'école, publique ou voucher (privée avec un financement de l'état), sur les trajectoires. Nous avons utilisé une base de données nationale longitudinale qui comprenait des mesures pour les mêmes élèves en 4ème, 8ème et 10ème années. Des modèles de croissance multiniveaux ont été utilisés pour modéliser les trajectoires. Nos résultats montrent que les écoles secondaires et primaires ont un effet sur les interceptes et les pentes des trajectoires. Par ailleurs, nous avons constaté un effet négatif de l'école publique, qui est devenu non significatif lorsque nous avons contrôlé la composition socio-économique de l'école et ses pratiques de sélection. Ces résultats illustrent la stratification entre le système public et le système voucher ainsi que la nécessité de questionner l'efficacité des écoles pour chaque système. / This PhD thesis is dedicated to the statistical modeling of the impact of academic environments on student’s beliefs and achievement in Chile. We contribute to the field of educational effectiveness with a statistical discussion regarding how to combine multilevel models with methods for selection bias and missing data and two empirical studies. The statistical discussion was used to take methodological decisions in the empirical studies. The first empirical study evaluates the impact of science courses on students’ beliefs. The second empirical study is about school effects on students’ trajectories in mathematics and reading scores. In the statistical part, we analyze linear adjustment and propensity score matching to address selection bias. Regarding the missing data problem, we considered multiple imputation techniques. Each of these methods is compatible with multilevel models. However, the problem of addressing selection bias and missing data simultaneously with hierarchical data is not resolved. We present a statistical discussion that classifies and analyzes strategies to combine the methods. The first empirical study regards the influence of Life and Non-life science courses in secondary students’ epistemic and self-efficacy beliefs related to sciences. We compared students that took summer science courses with a control group in a post and follow-up beliefs questionnaire. We found positive effects of Life courses and courses with laboratory work, controlling for confounding variables. The results show differences between Life and Non-life scientific disciplines that should be explored. The second empirical study concerns school effects on trajectories of Chilean students. It has two aims. The first aim is to describe the characteristics of the trajectories in mathematics and reading scores and the variation explained by primary and secondary schools. The second aim is to measure the effect of public schools in comparison with voucher schools on students’ trajectories in mathematics and reading scores. We used a longitudinal national database which included measures for the same students at 4th, 8th and 10th grade. Multilevel growth models were used to model the trajectories. We found effects of secondary and primary schools on intercepts and slopes. In addition, we found negative effects from public education, which became not significant after controlling for school’ socioeconomic composition and selection practices. The results illustrate the stratification between the public system and voucher system and the need to study inside each system which schools are more efficient.
|
75 |
Du péché à la faute : l'"advertance de raison" et les théologies de l'imputation morales, XVe - XVIIe siècles / From sin to fault : the notion of advertentia rationis and the theologies of moral imputation, 15th-17th centuriesNicolas, Paola 11 December 2015 (has links)
Entre le début du XVe siècle et la fin du XVIIe siècle, la question de la justice de l’élection et de la damnation divine fait l’objet de débats d’une grande virulence entre les théologiens catholiques. Contre la conception luthérienne d’un «Dieu aimant les uns et détestant les autres d’un amour et d’une haine éternels», les Dominicains et les Jésuites interrogent les raisons motivant le châtiment de Dieu, quand les Jansénistes clament que Dieu ne doit rien à personne. Les théologies de l’imputation morale de la période s’affrontent à propos de la définition de l’offense au Créateur, de la question du salut des païens, des conditions d’attribution de la grâce, et portent à leur paroxysme les tensions inhérentes au catholicisme post-tridentin. Ce présent travail montre comment la théologie n’a pas assisté en spectatrice impuissance à l’élaboration du sujet laïc, mais y a participé de manière active et paradoxale. C’est au beau milieu des feux mutuels que se lancent les polémistes que l’on peut suivre la manière dont s’élabore peu à peu la distinction de deux sphères de l’imputation morale – celle de l’homme et celle du chrétien –, et ainsi, la manière dont on vient à concevoir une version sécularisée de la faute morale, ou une offense à la droite raison qui ne soit nullement une offense à Dieu. / Between the beginning of the 16th and the late 17th century, Catholic theologians argue about the justice of the divine election and damnation. Against the Lutheran conception of “a God loving ones but detesting the others with eternal love and hate”, Dominicans and Jesuits question the reasons motivating God reprobation, while the Jansenist position is that “God owes us nothing”. At this period, theologies of moral imputation fight on multiple topics: how to define the offence to the Creator, how to ground pagans’ salvation, what are the conditions of grace attribution, and overall these debates will bring the tensions inherent to post-Tridentine Catholicism into focus. In this work, I show that theology did not passively watch the making of the secular subject but was instead an active and paradoxical player. It is in the middle of the controversy between the different polemists that we can trace back the way the distinction between the two spheres of moral imputation – the one of the men and the one of the Christians – is progressively grounded, and thus, we can understand the path leading to a secularized version of the moral fault, namely, an offense to reason that is not an offense to God.
|
76 |
Identification des profils de changement sur données longitudinales, illustrée par deux exemples : étude des trajectoires hopsitalières de prise en charge d'un cancer. Construction des profils évolutifs de qualité de vie lors d'un essai thérapeutique pour un cancer avancé / Identification of patterns og change on mongitudinal data, illustrated by two exemples : study of hospital pathways in the management of cancer. Constuction of quality of life change patterns in a clinical trial for advanced cancerNuemi Tchathouang, Gilles Eric 21 October 2014 (has links)
ContexteDans le domaine de la santé, l’analyse des données pour l’extraction des connaissances est un enjeu en pleine expansion. Les questions sur l’organisation des soins ou encore l’étude de l’association entre le traitement et qualité de vie (QdV) perçue pourraient être abordées sous cet angle. L’évolution des technologies permet de disposer d’outils de fouille de données performants et d’outils statistiques enrichis de méthode avancées, utilisables par les non experts. Nous avons illustré cette méthode au travers de deux questions d’actualité :1 / Quelle organisation des soins pour la prise en charge des cancers ? 2/ étude de la relation chez les patients souffrant d’un cancer métastatique entre la QdV liée à la santé perçue et les traitements reçus dans le cadre d’un essai thérapeutique.Matériels et méthodesNous disposons aujourd’hui de volumineuses bases de données. Certaines retracent le parcours hospitalier des patients, comme c’est le cas pour les données d’activités hospitalières recueillies dans le cadre du programme de médicalisation des systèmes d’information (PMSI). D’autres conservent les informations sur la QdV perçues par les patients et qui recueillies en routine actuellement dans les essais thérapeutiques. L’analyse de ces données a été réalisée suivant trois étapes principales : Tout d’abord une étape de préparation des données dont l’objectif était la compatibilité à un concept d’analyse précisé. Il s’agissait par exemple de transformer une base de données classique (centrée sur le patient) vers une nouvelle base de données où « l’unité de recueil » est une entité autre que le patient (ex. trajectoire de soins). Ensuite une deuxième étape consacrée à l’application de méthodes de fouille de données pour l’extraction connaissances : les méthodes d’analyse formelle des concepts ou encore les méthodes de classifications non-supervisée. Et enfin l’étape de restitution des résultats obtenus et présenté sous forme graphique.RésultatsPour la question de l’organisation des soins, nous avons construit une typologie des trajectoires hospitalières des soins permettait de réaliser un état des lieux des pratiques dans la prise en charge des cancers étudié depuis la chirurgie jusqu’à un an de suivi des patients. Dans le cas du Cancer du sein, nous avons décrit une typologie de prise en charge sur la base des coûts d’hospitalisation sur un suivi d’un an. Pour la deuxième question, nous avons également construit une typologie des profils évolutifs de la QdV. Celle-ci comportait 3 classes : une classe d’amélioration, une classe de stabilité et une classe de dégradation.ConclusionL’intérêt majeur de ce travail était de mettre en évidence des pistes de réflexion permettant des avancées dans la compréhension et la construction de solutions adaptées aux problèmes. / Context In healthcare domain, data mining for knowledge discovery represent a growing issue. Questions about the organisation of healthcare system and the study of the relation between treatment and quality of life (QoL) perceived could be addressed that way. The evolution of technologies provides us with efficient data mining tools and statistical packages containing advanced methods available for non-experts. We illustrate this approach through two issues: 1 / What organisation of healthcare system for cancer diseases management? 2 / Exploring in patients suffering from metastatic cancer, the relationship between health-related QoL perceived and treatment received as part of a clinical trial. Materials and methods Today we have large databases. Some are dedicated to gather together all hospital stays, as is the case for the national medico-administrative DRG-type database. Others are used to store information about QoL perceived by patients, routinely collected in clinical trials. The analysis of these data was carried out following three main steps: In the first step, data are prepared to be useable according to a defined concept of data analysis. For example, a classical database (patient-centered) was converted to a new database organised around a new defined entity which was different from the patient (eg. Care trajectory). Then in the second step, we applied data mining methods for knowledge discovery: we used the formal analysis of concepts method and unsupervised clustering techniques. And finally the results were presented in a graphical form. Results Concerning the question of the organisation of healthcare system, we constructed a typology of hospital care trajectories. We were able then to describe current practice in the management of cancers from the first cancer related surgical operation until one year of follow-up. In the case of breast cancer, we’ve described a typology of care on the basis of hospital costs over a one year follow up. Concerning the second question, we have also constructed a typology of QoL change patterns. This comprised three groups: Improvement, stability and degradation group.Conclusion The main interest of this work was to highlight new thoughts, which advances understanding and, contributing in appropriate solutions building.
|
77 |
Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application aux décès par cancer de la prostate / Survival analysis methods, missing values and time-dependent attributable fractions : application to death from prostate cancerMorisot, Adeline 02 December 2015 (has links)
Le terme analyse de survie fait référence aux méthodes utilisées pour modéliser le temps d'apparition d'un ou plusieurs événements en tenant compte de la censure. L'événement d’intérêt peut être l'apparition, la récidive d'une maladie, ou le décès. Les causes de décès peuvent présenter des valeurs absentes, une situation qui peut être modélisée par des méthodes d’imputation. Dans la première partie de cette thèse nous avons passer en revue les méthodes de gestion des données manquantes. Puis nous avons détaillé les procédures qui permettent une imputation multiple des causes de décès. Nous avons développé ces méthodes dans une cohorte issue d’une étude européenne, l’ERSPC (European Randomized Study of Screening for Prostate Cancer), qui étudiait le dépistage et la mortalité par cancer de la prostate. Nous avons proposé une formulation théorique des règles de Rubin après transformation log-log complémentaire afin de combiner les estimations de survie. De plus, nous mettons à disposition le code R afférent. Dans la deuxième partie, nous présentons les méthodes d'analyse de survie, en proposant une écriture unifiée basée sur les définitions des survies brute et nette, que l’on s'intéresse à toutes les causes de décès ou à une seule cause. Cela implique la prise en compte de la censure qui peut alors être informative. Nous avons considéré les méthodes dites classiques (Kaplan-Meier, Nelson-Aalen, Cox et paramétriques), les méthodes des risques compétitifs (en considérant un modèle multi-états ou un modèle de temps latents), les méthodes dites spécifiques avec correction IPCW (Inverse Ponderation Censoring Weighting) et les méthodes de survie relative. Les méthodes dites classiques reposent sur l'hypothèse de censure non informative. Quand on s'intéresse aux décès de toutes causes, cette hypothèse est souvent valide. En revanche, pour un décès de cause particulière, les décès d'autres causes sont considérés comme une censure, et cette censure par décès d'autres causes est en général informative. Nous introduisons une approche basée sur la méthode IPCW afin de corriger cette censure informative, et nous fournissons une fonction R qui permet d’appliquer cette approche directement. Toutes les méthodes présentées dans ce chapitre sont appliquées aux bases de données complétées par imputation multiple.Enfin, dans une dernière partie nous avons cherché à déterminer le pourcentage de décès expliqué par une ou plusieurs variables en utilisant les fractions attribuables. Nous présentons les formulations théoriques des fractions attribuables, indépendantes du temps puis dépendantes du temps qui s’expriment sous la forme de survie. Nous illustrons ces concepts en utilisant toutes les méthodes de survie de la partie précédente et comparons les résultats. Les estimations obtenues avec les différentes méthodes sont très proches. / The term survival analysis refers to methods used for modeling the time of occurrence of one or more events taking censoring into account. The event of interest may be either the onset or the recurrence of a disease, or death. The causes of death may have missing values, a status that may be modeled by imputation methods.
In the first section of this thesis we made a review of the methods used to deal with these missing data. Then, we detailed the procedures that enable multiple imputation of causes of death. We have developed these methods in a subset of the ERSPC (European Randomized Study of Screening for Prostate Cancer), which studied screening and mortality for prostate cancer. We proposed a theoretical formulation of Rubin rules after a complementary log-log transformation to combine estimates of survival. In addition, we provided the related R code.
In a second section, we presented the survival analysis methods, by proposing a unified writing based on the definitions of crude and net survival, while considering either all-cause or specific cause of death. This involves consideration of censoring which can then be informative. We considered the so-called traditional methods (Kaplan-Meier, Nelson-Aalen, Cox and parametric) methods of competing risks (considering a multistate model or a latent failure time model), methods called specific that are corrected using IPCW (Inverse Ponderation Censoring Weighting) and relative survival methods. The classical methods are based on a non-informative censoring assumption. When we are interested in deaths from all causes, this assumption is often valid. However, for a particular cause of death, other causes of death are considered as a censoring. In this case, censoring by other causes of death is generally considered informative. We introduced an approach based on the IPCW method to correct this informative censoring, and we provided an R function to apply this approach directly. All methods presented in this chapter were applied to datasets completed by multiple imputation.
Finally, in a last part we sought to determine the percentage of deaths explained by one or more variables using attributable fractions. We presented the theoretical formulations of attributable fractions, time-independent and time-dependent that are expressed as survival. We illustrated these concepts using all the survival methods presented in section 2, and compared the results. Estimates obtained with the different methods were very similar.
|
78 |
Innovationer och dess inverkan av Humankapital, Handel och FoU : Till vilken grad påverkas innovationer i EU av Humankapital, Handel med IKT och FoU?Skjäl, Henric, Yaman, Erim January 2019 (has links)
This thesis analyzes what effects human capital, R&D and ICT-goods trade have on innovation. Positive outcomes from innovation are an increased level of productivity, which increases incentives for greater innovative activity. Throughout this thesis patent-applications will be used as a proxy for innovation, which is in accordance with previous literature. The main scope of this paper will focus on econometric panel-data to determine which indicators have a significant effect on national-wide patent-applications and basic policy making in accordance with the findings. The scope of the study will include 27 European Union countries. The methodology used concerning panel-data is fixed effects. However, due to the amount of missing data the econometric estimation, we will focus on imputation of the missing values. According to various tests that determine what kind of model fits the underlying dataset, we can conclude that this study requires the use of a Multiple Imputation technique. Our result shows that investments towards R&D have the biggest impact on innovations. / Denna uppsats har som mål att undersöka och analysera vilka effekter humankapital, forskning och utveckling och IKT-varor har på innovation. Positiva följder av innovation är en ökad produktivitetsnivå, vilket ökar incitamenten för att fortsätta med innovationer. I denna uppsats kommer patentansökningar att användas som en proxy för innovation. Detta är även något som tidigare studier har gjort. För att undersöka och identifiera de faktorer som har en påverkan på innovationer kommer en panelregression med fixed effects att genomföras. De länder som ingår i studien är 27 EU-medlemsländer. Vår databas saknar en stor mängd värden vilket försvårar analysen vid en panelregression. För att komma runt detta problem kommer en multipel imputation av värden att genomföras. Resultatet visar att statliga investeringar i forskning och utveckling har störst påverkan på innovationer.
|
79 |
Comparison of Imputation Methods for Mixed Data Missing at RandomHeidt, Kaitlyn 01 May 2019 (has links)
A statistician's job is to produce statistical models. When these models are precise and unbiased, we can relate them to new data appropriately. However, when data sets have missing values, assumptions to statistical methods are violated and produce biased results. The statistician's objective is to implement methods that produce unbiased and accurate results. Research in missing data is becoming popular as modern methods that produce unbiased and accurate results are emerging, such as MICE in R, a statistical software. Using real data, we compare four common imputation methods, in the MICE package in R, at different levels of missingness. The results were compared in terms of the regression coefficients and adjusted R^2 values using the complete data set. The CART and PMM methods consistently performed better than the OTF and RF methods. The procedures were repeated on a second sample of real data and the same conclusions were drawn.
|
80 |
Pharmacogénétique de l'Imatinib dans la Leucémie Myéloïde Chronique etDonnées Censurées par Intervalles en présence de Compétition / Pharmacogenetics of Imatinib in Chronic Myeloid Leukemia etInterval Censored Competing Risks DataDelord, Marc 05 November 2015 (has links)
Le traitement de la leucémie myéloïde chronique (LMC) par imatinib est un succès de thérapie ciblée en oncologie. Le principe de cette thérapie est de bloquer les processus biochimiques à l'origine du développement de la maladie, et de permettre à une majorité de patients de réduire leurs risques de progression mais aussi d'éviter des traitements lourds et risqués comme la greffe de cellules souches hématopoïétiques.Cependant, même si l'efficacité de l'imatinib à été prouvée dans un contexte clinique, il n'en demeure pas moins qu'une proportion non négligeable de patients n'obtient par de niveaux de réponse moléculaire jugés optimale. Le but de cette thèse est de tester l'hypothèse d'un lien entre des polymorphismes de gènes impliqués dans l'absorption des médicaments et de leurs métabolisme, et la réponse moléculaire dans la leucémie myéloïde chronique en phase chronique traitée par imatinib.Dans le but d'évaluer la réponse moléculaire des patients, des prélèvements sanguins sont réalisés tout les 3 mois afin de pratiquer le dosage d'un biomarqueur. Ce type particulier de suivi produit des données censurées par intervalles. Comme par ailleurs, les patients demeurent à risque de progression ou sont susceptible d'interrompre leurs traitements pour cause d'intolérance, il est possible que la réponse d'intérêt ne soit plus observable sous le traitement étudié. Les données ainsi produites sont censurées par intervalles dans un contexte de compétition (risques compétitifs).Afin de tenir compte de la nature particulière des données collectées, une méthode basée sur l'imputation multiple est proposée. L'idée est de transformer les données censurées par intervalles en de multiples jeux de données potentiellement censurées à droite et d'utiliser les méthodes disponibles pour l'analyser de ces données. Finalement les résultats sont assemblés en suivant les règles de l'imputation multiple. / Imatinib in the treatment of chronic myeloid leukemia is a success of targeted therapy in oncology. The aim of this therapy is to block the biochemical processes leading to disease development. This strategy results in a reduction of the risk of disease progression and allows patients to avoid extensive and hazardous treatments such as hematologic stem cell transplantation.However, even if imatinib efficacy has been demonstrated in a clinical setting, a significant part of patients do not achieve suitable levels of molecular response. The objective of this thesis, is to test the hypothesis of a correlation between polymorphisms of genes implied in drug absorption an metabolism and the molecular response in chronic myeloid leukemia in chronic phase treated by imatinib.In order to evaluate patients molecular response, blood biomarker assessments are performed every 3 months. This type of follow up produces interval censored data. As patients remain at risk of disease progression, or may interrupt their treatments due to poor tolerance, the response of interest may not be observable in a given setting. This situation produces interval censored competing risks data.To properly handle such data, we propose a multiple imputation based method.The main idea is to convert interval censored data into multiple sets of potentially right censored data that are then analysed using multiple imputation rules.
|
Page generated in 0.0917 seconds