• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 15
  • 5
  • 1
  • Tagged with
  • 21
  • 21
  • 9
  • 8
  • 8
  • 7
  • 7
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Modélisation statistique de l'impact des environnements académiques sur les croyances et la réussite des élèves au Chili / Statistical modeling of the impact of academic environments on student’s beliefs and achievement in Chile

Giaconi Smoje, Valentina 26 September 2016 (has links)
Cette thèse de doctorat est consacrée à la modélisation statistique de l'impact des environnements académiques sur les croyances et la réussite des élèves au Chili. Nous contribuons au domaine de l'efficacité éducative avec une discussion statistique et deux études empiriques. La discussion statique questionne la façon de combiner les modèles multiniveaux avec des méthodes pour le biais de sélection et pour les données manquantes. Cette discussion statistique sera utilisée pour prendre des décisions méthodologiques dans les études empiriques. La première étude empirique consiste en une évaluation d'intervention de l'impact des cours de sciences sur les croyances des étudiants. La deuxième étude empirique concerne l'effet des écoles sur les trajectoires des scores de mathématiques et de lecture des élèves. Dans la partie statistique, nous avons décrit et analysé les méthodes d'ajustement linéaire et d'appariement des scores de propension pour modéliser le biais de sélection. En ce qui concerne les problèmes de données manquantes, nous avons analysé la méthode d'imputation multiple. Chacune de ces méthodes est compatible avec les modèles multi-niveaux. En revanche, l'utilisation combinée de ces méthodes pour des données hiérarchiques n'est pas résolu. Nous présentons alors une discussion statistique qui analyse et classe des stratégies pour combiner ces méthodes.La première étude empirique concerne l'influence des disciplines scientifiques qui s'intéressent à des objets vivants et non-vivants sur les croyances épistémiques et le sentiment d'auto-efficacité des étudiants de secondaire. Nous avons comparé, pour ces croyances, les étudiants qui ont suivi des cours de sciences à un groupe contrôle sur deux temps de mesure, à la fin des cours et 4 mois après. Nous avons constaté un effet positif du travail en laboratoire et des disciplines qui s'intéressent à des objets vivants (en contrôlant les variables confondues). Cette étude met en lumière des différences entre les disciplines qui s'intéressent à des objets vivant et des objets non-vivant qui devront être explorées.La deuxième étude empirique concerne l'effet des écoles sur les trajectoires des scores en mathématiques et en lecture des élèves. Le premier objectif est de décrire les caractéristiques des trajectoires et la variance expliquée par les écoles primaires et secondaires. Le deuxième objectif est de mesurer l'effet du type d'école, publique ou voucher (privée avec un financement de l'état), sur les trajectoires. Nous avons utilisé une base de données nationale longitudinale qui comprenait des mesures pour les mêmes élèves en 4ème, 8ème et 10ème années. Des modèles de croissance multiniveaux ont été utilisés pour modéliser les trajectoires. Nos résultats montrent que les écoles secondaires et primaires ont un effet sur les interceptes et les pentes des trajectoires. Par ailleurs, nous avons constaté un effet négatif de l'école publique, qui est devenu non significatif lorsque nous avons contrôlé la composition socio-économique de l'école et ses pratiques de sélection. Ces résultats illustrent la stratification entre le système public et le système voucher ainsi que la nécessité de questionner l'efficacité des écoles pour chaque système. / This PhD thesis is dedicated to the statistical modeling of the impact of academic environments on student’s beliefs and achievement in Chile. We contribute to the field of educational effectiveness with a statistical discussion regarding how to combine multilevel models with methods for selection bias and missing data and two empirical studies. The statistical discussion was used to take methodological decisions in the empirical studies. The first empirical study evaluates the impact of science courses on students’ beliefs. The second empirical study is about school effects on students’ trajectories in mathematics and reading scores. In the statistical part, we analyze linear adjustment and propensity score matching to address selection bias. Regarding the missing data problem, we considered multiple imputation techniques. Each of these methods is compatible with multilevel models. However, the problem of addressing selection bias and missing data simultaneously with hierarchical data is not resolved. We present a statistical discussion that classifies and analyzes strategies to combine the methods. The first empirical study regards the influence of Life and Non-life science courses in secondary students’ epistemic and self-efficacy beliefs related to sciences. We compared students that took summer science courses with a control group in a post and follow-up beliefs questionnaire. We found positive effects of Life courses and courses with laboratory work, controlling for confounding variables. The results show differences between Life and Non-life scientific disciplines that should be explored. The second empirical study concerns school effects on trajectories of Chilean students. It has two aims. The first aim is to describe the characteristics of the trajectories in mathematics and reading scores and the variation explained by primary and secondary schools. The second aim is to measure the effect of public schools in comparison with voucher schools on students’ trajectories in mathematics and reading scores. We used a longitudinal national database which included measures for the same students at 4th, 8th and 10th grade. Multilevel growth models were used to model the trajectories. We found effects of secondary and primary schools on intercepts and slopes. In addition, we found negative effects from public education, which became not significant after controlling for school’ socioeconomic composition and selection practices. The results illustrate the stratification between the public system and voucher system and the need to study inside each system which schools are more efficient.
12

Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application aux décès par cancer de la prostate / Survival analysis methods, missing values and time-dependent attributable fractions : application to death from prostate cancer

Morisot, Adeline 02 December 2015 (has links)
Le terme analyse de survie fait référence aux méthodes utilisées pour modéliser le temps d'apparition d'un ou plusieurs événements en tenant compte de la censure. L'événement d’intérêt peut être l'apparition, la récidive d'une maladie, ou le décès. Les causes de décès peuvent présenter des valeurs absentes, une situation qui peut être modélisée par des méthodes d’imputation. Dans la première partie de cette thèse nous avons passer en revue les méthodes de gestion des données manquantes. Puis nous avons détaillé les procédures qui permettent une imputation multiple des causes de décès. Nous avons développé ces méthodes dans une cohorte issue d’une étude européenne, l’ERSPC (European Randomized Study of Screening for Prostate Cancer), qui étudiait le dépistage et la mortalité par cancer de la prostate. Nous avons proposé une formulation théorique des règles de Rubin après transformation log-log complémentaire afin de combiner les estimations de survie. De plus, nous mettons à disposition le code R afférent. Dans la deuxième partie, nous présentons les méthodes d'analyse de survie, en proposant une écriture unifiée basée sur les définitions des survies brute et nette, que l’on s'intéresse à toutes les causes de décès ou à une seule cause. Cela implique la prise en compte de la censure qui peut alors être informative. Nous avons considéré les méthodes dites classiques (Kaplan-Meier, Nelson-Aalen, Cox et paramétriques), les méthodes des risques compétitifs (en considérant un modèle multi-états ou un modèle de temps latents), les méthodes dites spécifiques avec correction IPCW (Inverse Ponderation Censoring Weighting) et les méthodes de survie relative. Les méthodes dites classiques reposent sur l'hypothèse de censure non informative. Quand on s'intéresse aux décès de toutes causes, cette hypothèse est souvent valide. En revanche, pour un décès de cause particulière, les décès d'autres causes sont considérés comme une censure, et cette censure par décès d'autres causes est en général informative. Nous introduisons une approche basée sur la méthode IPCW afin de corriger cette censure informative, et nous fournissons une fonction R qui permet d’appliquer cette approche directement. Toutes les méthodes présentées dans ce chapitre sont appliquées aux bases de données complétées par imputation multiple.Enfin, dans une dernière partie nous avons cherché à déterminer le pourcentage de décès expliqué par une ou plusieurs variables en utilisant les fractions attribuables. Nous présentons les formulations théoriques des fractions attribuables, indépendantes du temps puis dépendantes du temps qui s’expriment sous la forme de survie. Nous illustrons ces concepts en utilisant toutes les méthodes de survie de la partie précédente et comparons les résultats. Les estimations obtenues avec les différentes méthodes sont très proches. / The term survival analysis refers to methods used for modeling the time of occurrence of one or more events taking censoring into account. The event of interest may be either the onset or the recurrence of a disease, or death. The causes of death may have missing values, a status that may be modeled by imputation methods.
In the first section of this thesis we made a review of the methods used to deal with these missing data. Then, we detailed the procedures that enable multiple imputation of causes of death. We have developed these methods in a subset of the ERSPC (European Randomized Study of Screening for Prostate Cancer), which studied screening and mortality for prostate cancer. We proposed a theoretical formulation of Rubin rules after a complementary log-log transformation to combine estimates of survival. In addition, we provided the related R code.
In a second section, we presented the survival analysis methods, by proposing a unified writing based on the definitions of crude and net survival, while considering either all-cause or specific cause of death. This involves consideration of censoring which can then be informative. We considered the so-called traditional methods (Kaplan-Meier, Nelson-Aalen, Cox and parametric) methods of competing risks (considering a multistate model or a latent failure time model), methods called specific that are corrected using IPCW (Inverse Ponderation Censoring Weighting) and relative survival methods. The classical methods are based on a non-informative censoring assumption. When we are interested in deaths from all causes, this assumption is often valid. However, for a particular cause of death, other causes of death are considered as a censoring. In this case, censoring by other causes of death is generally considered informative. We introduced an approach based on the IPCW method to correct this informative censoring, and we provided an R function to apply this approach directly. All methods presented in this chapter were applied to datasets completed by multiple imputation.
Finally, in a last part we sought to determine the percentage of deaths explained by one or more variables using attributable fractions. We presented the theoretical formulations of attributable fractions, time-independent and time-dependent that are expressed as survival. We illustrated these concepts using all the survival methods presented in section 2, and compared the results. Estimates obtained with the different methods were very similar.
13

Pharmacogénétique de l'Imatinib dans la Leucémie Myéloïde Chronique etDonnées Censurées par Intervalles en présence de Compétition / Pharmacogenetics of Imatinib in Chronic Myeloid Leukemia etInterval Censored Competing Risks Data

Delord, Marc 05 November 2015 (has links)
Le traitement de la leucémie myéloïde chronique (LMC) par imatinib est un succès de thérapie ciblée en oncologie. Le principe de cette thérapie est de bloquer les processus biochimiques à l'origine du développement de la maladie, et de permettre à une majorité de patients de réduire leurs risques de progression mais aussi d'éviter des traitements lourds et risqués comme la greffe de cellules souches hématopoïétiques.Cependant, même si l'efficacité de l'imatinib à été prouvée dans un contexte clinique, il n'en demeure pas moins qu'une proportion non négligeable de patients n'obtient par de niveaux de réponse moléculaire jugés optimale. Le but de cette thèse est de tester l'hypothèse d'un lien entre des polymorphismes de gènes impliqués dans l'absorption des médicaments et de leurs métabolisme, et la réponse moléculaire dans la leucémie myéloïde chronique en phase chronique traitée par imatinib.Dans le but d'évaluer la réponse moléculaire des patients, des prélèvements sanguins sont réalisés tout les 3 mois afin de pratiquer le dosage d'un biomarqueur. Ce type particulier de suivi produit des données censurées par intervalles. Comme par ailleurs, les patients demeurent à risque de progression ou sont susceptible d'interrompre leurs traitements pour cause d'intolérance, il est possible que la réponse d'intérêt ne soit plus observable sous le traitement étudié. Les données ainsi produites sont censurées par intervalles dans un contexte de compétition (risques compétitifs).Afin de tenir compte de la nature particulière des données collectées, une méthode basée sur l'imputation multiple est proposée. L'idée est de transformer les données censurées par intervalles en de multiples jeux de données potentiellement censurées à droite et d'utiliser les méthodes disponibles pour l'analyser de ces données. Finalement les résultats sont assemblés en suivant les règles de l'imputation multiple. / Imatinib in the treatment of chronic myeloid leukemia is a success of targeted therapy in oncology. The aim of this therapy is to block the biochemical processes leading to disease development. This strategy results in a reduction of the risk of disease progression and allows patients to avoid extensive and hazardous treatments such as hematologic stem cell transplantation.However, even if imatinib efficacy has been demonstrated in a clinical setting, a significant part of patients do not achieve suitable levels of molecular response. The objective of this thesis, is to test the hypothesis of a correlation between polymorphisms of genes implied in drug absorption an metabolism and the molecular response in chronic myeloid leukemia in chronic phase treated by imatinib.In order to evaluate patients molecular response, blood biomarker assessments are performed every 3 months. This type of follow up produces interval censored data. As patients remain at risk of disease progression, or may interrupt their treatments due to poor tolerance, the response of interest may not be observable in a given setting. This situation produces interval censored competing risks data.To properly handle such data, we propose a multiple imputation based method.The main idea is to convert interval censored data into multiple sets of potentially right censored data that are then analysed using multiple imputation rules.
14

Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention

Paquin, Stéphane 03 1900 (has links)
Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect.
15

Fiscalité environnementale, dette publique et croissance économique : une analyse macroéconomique / Environmental taxation, public debt and economic growth : a macroeconomic analysis

Hassan, Mahmoud 11 June 2018 (has links)
Les politiques environnementales, notamment celles recourant aux instruments fiscaux, ont pris une place de plus en plus importante dans un grand nombre de pays durant les trois dernières décennies. Tous les pays de l’OCDE ont introduit des taxes liées à l'environnement et un nombre croissant d'entre eux procèdent à une réforme dite "verte" de leur fiscalité. L’utilisation de la taxe comme un instrument pour la politique environnementale a suscité un large débat parmi les chercheurs sur ses impacts sur la croissance économique, mais sans parvenir à un consensus sur la nature de ces effets. Certains trouvent un effet négatif, alors que d’autres montrent un impact positif. Deux points ont attiré notre attention sur ce sujet. Premièrement, les études empiriques qui vérifient la validité de ces résultats sont très rares. Deuxièmement, la majorité des modèles théoriques qui ont étudié l’effet de la fiscalité environnementale sur la croissance économique supposent que le gouvernement finance ses dépenses uniquement par les taxes et que le budget d’État est équilibré à chaque période, évitant ainsi tout fardeau associé au remboursement de la dette publique. Par conséquent, cette thèse a pour objectif d’abord d’explorer empiriquement la nature de la relation entre la fiscalité environnementale et la croissance économique, et si cette relation est sensible au niveau d'autres variables dans l'économie. Ensuite, nous examinons les canaux par lesquels cette taxe peut affecter la croissance économique, et si l'existence et le niveau de la dette publique peuvent modifier cet effet. / Environmental policies, especially those using fiscal instruments, have become more and more important in a large number of countries over the last three decades. All OECD countries have introduced environmentally related taxes, and a growing number of them are carrying out a so-called "green" reform of their taxation. The use of the tax as an instrument for environmental policy has sparked wide debate among researchers on its impacts on economic growth, but without reaching consensus on the nature of these effects. Some find a negative effect; while others show a positive impact. Two points raised our attention on this subject. First, the empirical studies that verify the validity of these results are very rare. Second, the majority of theoretical models that have studied the effect of environmental taxation on economic growth assume that the government finances its expenditures solely through taxes and that the state budget is balanced each period, thus avoiding any burden associated to repayment of public debt. Therefore, this thesis aims firstly to explore empirically the nature of the relationship between environmental taxation and economic growth, and whether this relationship is sensitive to the level of other variables in the economy. We examine then the channels through which this tax can affect economic growth, and whether the existence and level of public debt can modify this effect.
16

Capital humain, dette publique et croissance économique à long terme / Human capital, public debt and long-term economic growth

Murched, Maya 15 January 2016 (has links)
La croissance économique et ses moteurs représentent le principal sujet préoccupant les chercheurs en macroéconomie depuis longtemps. Investir en capital humain à travers le système éducatif joue un rôle important pour stimuler la croissance et le développement économique, cette accentuation a pris place depuis la naissance innovante de la théorie de la croissance endogène. L'attention et les efforts dévoués à l'investissement dans le capital humain peuvent être déstabilisés par le retour global et récent de la crise de la dette souveraine dans plusieurs pays, dette qui poursuit son ascension depuis 2007, et les politiques d'ajustement nécessaires d'après-crise. Des judicieuses politiques de redressement devraient être composées d'un mélange des activités encourageant la croissance économique, y compris l'investissement dans le capital humain, l'austérité et le long terme. L'objectif principal de cette thèse est de fournir des nouvelles évidences empiriques sur la relation dette-croissance économique et leurs externalités sur la formation de capital humain, les estimations sont réalisées sur un jeu de données récent et complet couvrant 22 années et 76 pays dans le monde. L'ensemble des variables utilisées englobe de nombreux agrégats macroéconomiques tel que : taux de croissance annuel du PIB, la dette publique en % de PIB, les dépenses publiques d'éducation en % de PIB, le moyen d'année de scolarité, le taux d'inflation, et d'autres. En utilisant une technique d'estimation semi-paramétrique appropriée qui offre des solutions pour de nombreux problèmes concernant les données, les résultats empiriques suggèrent un impact négatif et hétérogène de dette et des dépenses d'éducation publiques sur la croissance du PIB. Là où, l'utilisation des dépenses d'éducation dans l'ensemble de l'échantillon est inefficace, les décideurs politiques devraient ajuster et bien gérer la fonction de ces dépenses en même temps de viser des efforts publics pour réduire les niveaux élevés d'endettement et d'augmenter la croissance économique. Nous montrons également que l'utilisation des outils d'analyse textuelle en économie, offre une lecture rapide et globale des courants de recherche contenus dans la littérature empirique et théorique de la croissance économique. / Economic growth and its driving forces have been the maintopic preoccupying economic researchers since long time in macroeconomic branch. Public investment in human capital through educational system plays an ultimate role in boosting economic growth and development, this role has taken a place since the innovative dawn of endogenous growth theory. The focus and efforts of investing in human capital could be destabilized by the global and recent return of sovereign debt crisis in several countries, which continues its rise since theearly 2007, and the after-crisis necessary adjusting policies. Getting back wise policies should be composed of mixture of growth fostering activities, including the investment in human capital, austerity and forbearance.The main purpose of this thesis is to provide new empirical inferences on debt-growth relationship and its interaction with human capital formation. Estimates are carried on a recent and complete data set that spans over 22 years and involves 76 countries worldwide. The range of invested variables encompasses many macroeconomic aggregates such as : GDP annual growthrates, public debt to GDP ratio, and public education expenditure to GDP ratio, average schooling years, inflation rate, and others. Using a superior estimation semi-parametric technic which accounts for some data issues, the empirical results suggest a heterogeneous impact of public debt and education expenditures levels on GDP growth rates. Henceforth, the use of education expenditure in the whole sample is inefficient,where policy makers should adjust and well manage the function of these expenditure in line with the public efforts to reduce debt high levels and rise economic growth. We also show that the use of textual analysis tools in economic studies, such in growth literature, offers a rapid and total lecture of the hidden research trends embodied in the huge empirical and theoretical literature of economic growth.
17

Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention

Paquin, Stéphane 03 1900 (has links)
Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect.
18

Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale / Contribution to variable selection in the presence of longitudinal data : application to biomarkers derived from medical imaging

Geronimi, Julia 13 December 2016 (has links)
Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps. / Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time.
19

Evaluation économique des aires marines protégées : apports méthodologiques et applications aux îles Kuriat (Tunisie) / Economic valuation of marine protected areas : methodological perspectives and empirical applications to Kuriat Islands (Tunisia)

Mbarek, Marouene 16 December 2016 (has links)
La protection des ressources naturelles marines est un enjeu fort pour les décideurs publics. Le développement récent des aires marines protégées (AMP) contribue à ces enjeux de préservation. Les AMP ont pour objectifs de conserver les écosystèmes marins et côtiers tout en favorisant les activités humaines. La complexité de ces objectifs les rend difficiles à atteindre. L’objectif de cette thèse est de mener une analyse ex ante d’un projet d’une AMP aux îles Kuriat (Tunisie). Cette analyse représente une aide aux décideurs pour une meilleure gouvernance en intégrant les acteurs impliqués (pêcheur, visiteur, plaisancier) dans le processus de gestion. Pour ce faire, nous appliquons la méthode d’évaluation contingente (MEC) à des échantillons des pêcheurs et des visiteurs aux îles Kuriat. Nous nous intéressons au traitement des biais de sélection et d’échantillonnage et à l’incertitude sur la spécification des modèles économétriques lors de la mise en œuvre de la MEC. Nous faisons appel au modèle HeckitBMA,qui est une combinaison du modèle de Heckman (1979) et de l’inférence bayésienne, pour calculer le consentement à recevoir des pêcheurs. Nous utilisons aussi le modèle Zero inflated ordered probit (ZIOP), qui est une combinaison d’un probit binaire avec un probit ordonné, pour calculer le consentement à payer des visiteurs après avoir corrigé l’échantillon par imputation multiple. Nos résultats montrent que les groupes d’acteurs se distinguent par leur activité et leur situation économique ce qui les amène à avoir des perceptions différentes. Cela permet aux décideurs d’élaborer une politique de compensation permettant d’indemniser les acteurs ayant subi un préjudice. / The protection of marine natural resources is a major challenge for policy makers. The recent development of marine protected areas (MPAs) contributes to the preservation issues. MPAs are aimed to preserve the marine and coastal ecosystems while promoting human activities. The complexity of these objectives makes them difficult to reach. The purpose of this work is to conduct an ex-ante analysis of a proposed MPA to Kuriat Islands (Tunisia). This analysis is an aid to decision makers for better governance by integrating the actors involved (fisherman, visitor, boater) in the management process. To do this, we use the contingent valuation method (CVM) to samples of fishermen and visitors to the islands Kuriat. We are interested in the treatment of selection and sampling bias and uncertainty about specifying econometric models during the implementation of the CVM. We use the model HeckitBMA, which is a combination of the Heckman model (1979) and Bayesian inference, to calculate the willingness to accept of fishermen. We also use the model Zero inflated ordered probit (ZIOP), which is a combination of a binary probit with an ordered probit, to calculate the willingness to pay of visitors after correcting the sample by multiple imputation. Our results show that groups of actors are distinguished by their activity and economic conditions that cause them to have different perceptions. This allows policy makers to develop a policy of compensation to compensate the players who have been harmed.
20

Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes / Multiple imputation using principal component methods : A new methodology to deal with missing values

Audigier, Vincent 25 November 2015 (has links)
Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev / This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods.

Page generated in 0.0868 seconds