Global ETD Search

1	Intégration de données hétérogènes complexes à partir de tableaux de tailles déséquilibrées / Integrating heterogeneous complex data from unbalanced datasets Imbert, Alyssa 19 October 2018 (has links) Les avancées des nouvelles technologies de séquençage ont permis aux études cliniques de produire des données volumineuses et complexes. Cette complexité se décline selon diverses modalités, notamment la grande dimension, l’hétérogénéité des données au niveau biologique (acquises à différents niveaux de l’échelle du vivant et à divers moments de l’expérience), l’hétérogénéité du type de données, le bruit (hétérogénéité biologique ou données entachées d’erreurs) dans les données et la présence de données manquantes (au niveau d’une valeur ou d’un individu entier). L’intégration de différentes données est donc un défi important pour la biologie computationnelle. Cette thèse s’inscrit dans un projet de recherche clinique sur l’obésité, DiOGenes, pour lequel nous avons fait des propositions méthodologiques pour l’analyse et l’intégration de données. Ce projet est basé sur une intervention nutritionnelle menée dans huit pays européens et vise à analyser les effets de différents régimes sur le maintien pondéral et sur certains marqueurs de risque cardio-vasculaire et de diabète, chez des individus obèses. Dans le cadre de ce projet, mes travaux ont porté sur l’analyse de données transcriptomiques (RNA-Seq) avec des individus manquants et sur l’intégration de données transcriptomiques (nouvelle technique QuantSeq) avec des données cliniques. La première partie de cette thèse est consacrée aux données manquantes et à l’inférence de réseaux à partir de données d’expression RNA-Seq. Lors d’études longitudinales transcriptomiques, il arrive que certains individus ne soient pas observés à certains pas de temps, pour des raisons expérimentales. Nous proposons une méthode d’imputation multiple hot-deck (hd-MI) qui permet d’intégrer de l’information externe mesurée sur les mêmes individus et d’autres individus. hd-MI permet d’améliorer la qualité de l’inférence de réseau. La seconde partie porte sur une étude intégrative de données cliniques et transcriptomiques (mesurées par QuantSeq) basée sur une approche réseau. Nous y montrons l’intérêt de cette nouvelle technique pour l’acquisition de données transcriptomiques et l’analysons par une approche d’inférence de réseau en lien avec des données cliniques d’intérêt. / The development of high-throughput sequencing technologies has lead to a massive acquisition of high dimensional and complex datasets. Different features make these datasets hard to analyze : high dimensionality, heterogeneity at the biological level or at the data type level, the noise in data (due to biological heterogeneity or to errors in data) and the presence of missing data (for given values or for an entire individual). The integration of various data is thus an important challenge for computational biology. This thesis is part of a large clinical research project on obesity, DiOGenes, in which we have developed methods for data analysis and integration. The project is based on a dietary intervention that was led in eight Europeans centers. This study investigated the effect of macronutrient composition on weight-loss maintenance and metabolic and cardiovascular risk factors after a phase of calorie restriction in obese individuals. My work have mainly focused on transcriptomic data analysis (RNA-Seq) with missing individuals and data integration of transcriptomic (new QuantSeq protocol) and clinic datasets. The first part is focused on missing data and network inference from RNA-Seq datasets. During longitudinal study, some observations are missing for some time step. In order to take advantage of external information measured simultaneously to RNA-Seq data, we propose an imputation method, hot-deck multiple imputation (hd-MI), that improves the reliability of network inference. The second part deals with an integrative study of clinical data and transcriptomic data, measured by QuantSeq, based on a network approach. The new protocol is shown efficient for transcriptome measurement. We proposed an analysis based on network inference that is linked to clinical variables of interest. Analyse de données transcriptomiques Imputation multiple hot-deck
2	Méthodes d'analyse des données incomplètes incorporant l'incertitude attribuable aux valeurs manquantes Bernard, Francis January 2013 (has links) Lorsqu'on réalise une analyse des données dans le cadre d'une enquête, on est souvent confronté au problème des données manquantes. L'une des solutions les plus fréquemment utilisées est d'avoir recours aux méthodes d'imputation simple. Malheureusement, ces méthodes souffrnt d'un handicap important : les estimations courantes basées sur les valeurs observées et imputées considèrent à tort les valeurs imputées comme des valeurs connues, bien qu'une certaine forme d'incertitude plane au sujet des valeurs à imputer. En particulier, les intervalles de confiance pour les paramètres d'intérêt basés sur les données ainsi complétées n'incorporent pas l'incertitude qui est attribuable aux valeurs manquantes. Les méthodes basées sur le rééchantillonnage et l'imputation multiple -- une généralisation de l'imputation simple -- s'avèrent toutes deux des solutions courantes convenables au problème des données manquantes, du fait qu'elles incorporent cette incertitude. Une alternative consiste à avoir recours à l'imputation multiple à deux niveaux, une généralisation de l'imputation multiple (conventionnelle) qui a été développée dans la thèse que Shen [51] a rédigée en 2000 et qui permet d'exploiter les situations où la nature des valeurs manquantes suggère d'effectuer la procédure d'imputation en deux étapes plutôt qu'en une seule. Nous décrirons ces méthodes d'analyse des données incomplètes qui incorporent l'incertitude attribuable aux valeurs manquantes, nous soulèverons quelques problématiques intéressantes relatives au recours à ces méthodes et nous y proposerons des solutions appropriées. Finalement, nous illustrerons l'application de l'imputation multiple conventionnelle et de l'imputation multiple à deux niveaux au moyen d'exemples simples et concrets. Valeur manquante Incertitude Imputation multiple à deux niveaux Imputation multiple conventionnelle
3	Inequality of opportunity : measurement and impact on economic growth / Inégalité d'opportunité : mesure et effet sur la croissance économique Teyssier, Geoffrey 17 November 2017 (has links) Cette thèse porte sur la mesure de l'inégalité d'opportunité et son effet sur la croissance économique. Le Chapitre 1 étudie les propriétés axiomatiques de deux approches de mesure concurrentes. Dans les deux cas, la population est partitionnée en groupes rassemblant des personnes partageant les mêmes circonstances, ces déterminants de revenu que les individus ne peuvent choisir (ex. sexe ou milieu familial). L'inégalité d'opportunité est alors mesurée comme celle présente au sein d'une distribution contrefactuelle où chacun se voit attribuer le revenu représentatif de son groupe. La première approche considère la moyenne arithmétique comme revenu représentatif. Lorsque le nombre de groupes est grand et que leur taille est petite, ces moyennes sont peu précisément estimées. Afin de d'atténuer ce problème, la seconde approche, dite paramétrique, suppose que les circonstances n'ont pas d'effet d'interaction et remplace la moyenne arithmétique par la prédiction OLS du revenu régressé sur les circonstances. Le Chapitre 1 montre que la méthode paramétrique est faible d'un point de vue axiomatique. En particulier, elle ne respecte pas une version «entre-groupes» du principe des transferts. Le Chapitre 2 propose une méthodologie afin de contourner le manque actuel de micro-données sur les circonstances parentales, un déterminant majeur de l'inégalité d'opportunité. L'idée est d'utiliser 1 structure des enquêtes démographiques organisées autour de foyers afin de retrouver les circonstances parentales des adultes vivant avec leurs parents, puis d'utiliser une méthode d'ajustement statistique -l'imputation multiple -afin d'obtenir une mesure d'inégalité d'opportunité représentative de la population adulte dans son ensemble. Celle-ci est proche de la« vraie» inégalité d'opportunité, qui repose sur des questions directes à propos du milieu parental contenue dans l'enquête brésilienne du PNAD 1996. Le Chapitre 3 étudie empiriquement une récente explication quant au caractère peu concluant de la littérature empirique sur l'inégalité et la croissance: ce n'est pas l'inégalité de revenus qui compte pour la croissance mais ses deux composantes, à savoir l'inégalité d'opportunité et la composante résiduelle qu'est l'inégalité d'effort. Cette explication est validée au Brésil au niveau municipal durant la période 1980-2010, où le: inégalités d'opportunité et d'effort sont respectivement préjudiciables et bénéfiques à la croissance économique future, comme attendu. Leurs effets sont robustes et significatifs, contrairement à celui de l'inégalité total de revenus. / This thesis is about the measurement of inequality of opportunity and its impact on economic growth. Chapter 1 studies the axiomatic properties of two prominent measurement approaches. In both cases, the population is partitioned into groups of people sharing the same circumstances, those income determinants that are beyond individual control (e.g. sex or parental background) and that shape one's opportunities. Inequality of opportunity is then measured by applying a1 inequality index over a counterfactual distribution where each individual is attributed the representative income of his group. The first approach takes the representative income of a group to be its arithmetic mean. When a large number of small-sized groups are considered, these means can be poorly estimated. To mitigate this issue, the second approach, called parametric, assumes that circumstances have no interaction effect and takes this representative income to be the OLS predicted value of income regressed on circumstances. Chapter I shows that the parametric approach has poor axiomatic properties, especially with respect to a between-group version of the transfer principle. Chapter 2 provides a methodology to circumvent the current lack of microdata on parental background circumstances, a major driver of inequality of oppo1tunity. The idea is to retrieve the parental background of adults living with their parents thanks to the structure of household survey data, and then to apply a missing data procedure -multiple imputation -to obtain estimate of inequality of opportunity that are representative of the overall adult population. These estimates are shown to be close to their "true" counterpa1ts, based on direct questions about parental background contained in the Brazilian PNAD 1996 survey. Chapter 3 empirically investigates a recent and promising explanation for the inconclusiveness of traditional growth-inequality literature: income inequality does not matter for growth while its components -inequality of opportunity and the residual one, inequality of effort -do. This explanation is validated in Brazil at the municipality level over the period 1980-20 l 0, where inequalities of opportunity and effort are respectively detrimental and beneficial to subsequent growth, as expected. Their effects are robust and significant, in contrast to that of total income inequality. Inégalité de revenus Inégalité d'opportunité Croissance économique Imputation multiple Income inequality Inequality of opportunity Economic growth Multiple imputation
4	Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique Bouchard, Simon 12 November 2023 (has links) Titre de l'écran-titre (visionné le 6 juin 2023) / Le sujet de ce mémoire concerne l'utilisation de données incomplètes qui sont utilisées à des fins d'apprentissage statistique, dans un contexte où une méthode de traitement des données manquantes a été appliquée aux données. La problématique motivant ce travail est la prédiction de l'abandon scolaire chez les étudiants collégiaux. La caractéristique principale de la non-réponse au sein de ces données est que les étudiants ayant le statut d'immigrant ont une non-réponse quasi complète pour certaines variables. À partir d'une étude de simulation répliquant le comportement des données collégiales, différentes méthodes d'imputation sont utilisées sur des jeux de données ayant différentes configurations de non-réponse. Ces données imputées sont ensuite utilisées pour entraîner des modèles d'apprentissage statistique afin d'en évaluer les performances. À partir des résultats de cette étude de simulation, les combinaisons de méthodes d'imputation et de modèles d'apprentissage statistique ayant le mieux performé au niveau des prédictions sont appliquées aux données collégiales afin de déterminer quelles méthodes d'imputation permettent d'obtenir les meilleures performances prédictives. / This thesis deals with the use of incomplete data, to which a missing data treatment has been applied, in a statistical learning problem. The issue motivating this project is the prediction of school dropout among college students. The main characteristic of non-response in these data is that students with immigrant status have non-response for almost all the variables. Based on a simulation study replicating the behavior of college data, different imputation methods are applied on datasets with different nonresponse patterns. The imputed data are then used to train statistical learning models and to evaluate their performance. Based on the results of the simulation study, the best-performing combinations of imputation methods and statistical learning models are applied to college data. Observations manquantes (Statistique) Imputation multiple (Statistique)
5	Échantillonnage de Gibbs avec augmentation de données et imputation multiple Vidal, Vincent 11 April 2018 (has links) L'objectif de ce mémoire est de comparer la méthode d'échantillonnage de Gibbs avec augmentation de données, telle que présentée par Paquet (2002) et Bernier-Martel (2005), avec celle de l'imputation multiple telle que présentée par Grégoire (2004). Le critère de comparaison sera le signe des coefficients estimés. Nous travaillerons dans le contexte de bases de données indépendantes et d'un modèle linéaire à choix discret. Le modèle sera exprimé en tenant compte du choix des modes de transport des ménages de la communauté urbaine de Toronto. Pour réaliser ce projet, nous utiliserons la base de données du TTS (Transportation Tomorrow Survey) de 1986 et de 1996. Les résultats n'ont pas tous été estimés par un signe cohérent à nos attentes. Toutefois, nous pouvons conclure que l'échantillonnage de Gibbs avec augmentation de données est une approche plus intéressante que l'imputation multiple, puisqu'elle a estimé un nombre plus élevé de bons signes. HB 31.5 UL 2006 V649 Échantillonnage de Gibbs Augmentation de données (Statistique) Imputation multiple (Statistique) Modèles de choix discret
6	Modélisation des données d'enquêtes cas-cohorte par imputation multiple : application en épidémiologie cardio-vasculaire / Modeling of case-cohort data by multiple imputation : application to cardio-vascular epidemiology Marti soler, Helena 04 May 2012 (has links) Les estimateurs pondérés généralement utilisés pour analyser les enquêtes cas-cohorte ne sont pas pleinement efficaces. Or, les enquêtes cas-cohorte sont un cas particulier de données incomplètes où le processus d'observation est contrôlé par les organisateurs de l'étude. Ainsi, des méthodes d'analyse pour données manquant au hasard (MA) peuvent être pertinentes, en particulier, l'imputation multiple, qui utilise toute l'information disponible et permet d'approcher l'estimateur du maximum de vraisemblance partielle.Cette méthode est fondée sur la génération de plusieurs jeux plausibles de données complétées prenant en compte les différents niveaux d'incertitude sur les données manquantes. Elle permet d'adapter facilement n'importe quel outil statistique disponible pour les données de cohorte, par exemple, l'estimation de la capacité prédictive d'un modèle ou d'une variable additionnelle qui pose des problèmes spécifiques dans les enquêtes cas-cohorte. Nous avons montré que le modèle d'imputation doit être estimé à partir de tous les sujets complètement observés (cas et non-cas) en incluant l'indicatrice de statut parmi les variables explicatives. Nous avons validé cette approche à l'aide de plusieurs séries de simulations: 1) données complètement simulées, où nous connaissions les vraies valeurs des paramètres, 2) enquêtes cas-cohorte simulées à partir de la cohorte PRIME, où nous ne disposions pas d'une variable de phase-1 (observée sur tous les sujets) fortement prédictive de la variable de phase-2 (incomplètement observée), 3) enquêtes cas-cohorte simulées à partir de la cohorte NWTS, où une variable de phase-1 fortement prédictive de la variable de phase-2 était disponible. Ces simulations ont montré que l'imputation multiple fournissait généralement des estimateurs sans biais des risques relatifs. Pour les variables de phase-1, ils approchaient la précision obtenue par l'analyse de la cohorte complète, ils étaient légèrement plus précis que l'estimateur calibré de Breslow et coll. et surtout que les estimateurs pondérés classiques. Pour les variables de phase-2, l'estimateur de l'imputation multiple était généralement sans biais et d'une précision supérieure à celle des estimateurs pondérés classiques et analogue à celle de l'estimateur calibré. Les résultats des simulations réalisées à partir des données de la cohorte NWTS étaient cependant moins bons pour les effets impliquant la variable de phase-2 : les estimateurs de l'imputation multiple étaient légèrement biaisés et moins précis que les estimateurs pondérés. Cela s'explique par la présence de termes d'interaction impliquant la variable de phase-2 dans le modèle d'analyse, d'où la nécessité d'estimer des modèles d'imputation spécifiques à différentes strates de la cohorte incluant parfois trop peu de cas pour que les conditions asymptotiques soient réunies.Nous recommandons d'utiliser l'imputation multiple pour obtenir des estimations plus précises des risques relatifs, tout en s'assurant qu'elles sont analogues à celles fournies par les analyses pondérées. Nos simulations ont également montré que l'imputation multiple fournissait des estimations de la valeur prédictive d'un modèle (C de Harrell) ou d'une variable additionnelle (différence des indices C, NRI ou IDI) analogues à celles fournies par la cohorte complète / The weighted estimators generally used for analyzing case-cohort studies are not fully efficient. However, case-cohort surveys are a special type of incomplete data in which the observation process is controlled by the study organizers. So, methods for analyzing Missing At Random (MAR) data could be appropriate, in particular, multiple imputation, which uses all the available information and allows to approximate the partial maximum likelihood estimator.This approach is based on the generation of several plausible complete data sets, taking into account all the uncertainty about the missing values. It allows adapting any statistical tool available for cohort data, for instance, estimators of the predictive ability of a model or of an additional variable, which meet specific problems with case-cohort data. We have shown that the imputation model must be estimated on all the completely observed subjects (cases and non-cases) including the case indicator among the explanatory variables. We validated this approach with several sets of simulations: 1) completely simulated data where the true parameter values were known, 2) case-cohort data simulated from the PRIME cohort, without any phase-1 variable (completely observed) strongly predictive of the phase-2 variable (incompletely observed), 3) case-cohort data simulated from de NWTS cohort, where a phase-1 variable strongly predictive of the phase-2 variable was available. These simulations showed that multiple imputation generally provided unbiased estimates of the risk ratios. For the phase-1 variables, they were almost as precise as the estimates provided by the full cohort, slightly more precise than Breslow et al. calibrated estimator and still more precise than classical weighted estimators. For the phase-2 variables, the multiple imputation estimator was generally unbiased, with a precision better than classical weighted estimators and similar to Breslow et al. calibrated estimator. The simulations performed with the NWTS cohort data provided less satisfactory results for the effects where the phase-2 variable was involved: the multiple imputation estimators were slightly biased and less precise than the weighted estimators. This can be explained by the interactions terms involving the phase-2 variable in the analysis model and the necessity of estimating specific imputation models in different strata not including sometimes enough cases to satisfy the asymptotic conditions. We advocate the use of multiple imputation for improving the precision of the risk ratios estimates while making sure they are similar to the weighted estimates.Our simulations also showed that multiple imputation provided estimates of a model predictive value (Harrell's C) or of an additional variable (difference of C indices, NRI or IDI) similar to those obtained from the full cohort. Enquêtes cas-cohorte Estimateurs pondérés Imputation multiple Capacité prédictive Case-cohort surveys Weighted estimators Multiple imputation Predictive ability
7	Modélisation des données d'enquêtes cas-cohorte par imputation multiple : Application en épidémiologie cardio-vasculaire. Marti soler, Helena 04 May 2012 (has links) (PDF) Les estimateurs pondérés généralement utilisés pour analyser les enquêtes cas-cohorte ne sont pas pleinement efficaces. Or, les enquêtes cas-cohorte sont un cas particulier de données incomplètes où le processus d'observation est contrôlé par les organisateurs de l'étude. Ainsi, des méthodes d'analyse pour données manquant au hasard (MA) peuvent être pertinentes, en particulier, l'imputation multiple, qui utilise toute l'information disponible et permet d'approcher l'estimateur du maximum de vraisemblance partielle.Cette méthode est fondée sur la génération de plusieurs jeux plausibles de données complétées prenant en compte les différents niveaux d'incertitude sur les données manquantes. Elle permet d'adapter facilement n'importe quel outil statistique disponible pour les données de cohorte, par exemple, l'estimation de la capacité prédictive d'un modèle ou d'une variable additionnelle qui pose des problèmes spécifiques dans les enquêtes cas-cohorte. Nous avons montré que le modèle d'imputation doit être estimé à partir de tous les sujets complètement observés (cas et non-cas) en incluant l'indicatrice de statut parmi les variables explicatives. Nous avons validé cette approche à l'aide de plusieurs séries de simulations: 1) données complètement simulées, où nous connaissions les vraies valeurs des paramètres, 2) enquêtes cas-cohorte simulées à partir de la cohorte PRIME, où nous ne disposions pas d'une variable de phase-1 (observée sur tous les sujets) fortement prédictive de la variable de phase-2 (incomplètement observée), 3) enquêtes cas-cohorte simulées à partir de la cohorte NWTS, où une variable de phase-1 fortement prédictive de la variable de phase-2 était disponible. Ces simulations ont montré que l'imputation multiple fournissait généralement des estimateurs sans biais des risques relatifs. Pour les variables de phase-1, ils approchaient la précision obtenue par l'analyse de la cohorte complète, ils étaient légèrement plus précis que l'estimateur calibré de Breslow et coll. et surtout que les estimateurs pondérés classiques. Pour les variables de phase-2, l'estimateur de l'imputation multiple était généralement sans biais et d'une précision supérieure à celle des estimateurs pondérés classiques et analogue à celle de l'estimateur calibré. Les résultats des simulations réalisées à partir des données de la cohorte NWTS étaient cependant moins bons pour les effets impliquant la variable de phase-2 : les estimateurs de l'imputation multiple étaient légèrement biaisés et moins précis que les estimateurs pondérés. Cela s'explique par la présence de termes d'interaction impliquant la variable de phase-2 dans le modèle d'analyse, d'où la nécessité d'estimer des modèles d'imputation spécifiques à différentes strates de la cohorte incluant parfois trop peu de cas pour que les conditions asymptotiques soient réunies.Nous recommandons d'utiliser l'imputation multiple pour obtenir des estimations plus précises des risques relatifs, tout en s'assurant qu'elles sont analogues à celles fournies par les analyses pondérées. Nos simulations ont également montré que l'imputation multiple fournissait des estimations de la valeur prédictive d'un modèle (C de Harrell) ou d'une variable additionnelle (différence des indices C, NRI ou IDI) analogues à celles fournies par la cohorte complète Enquêtes cas-cohorte Estimateurs pondérés Imputation multiple Capacité prédictive
8	Traitement des données manquantes en épidémiologie : application de l’imputation multiple à des données de surveillance et d’enquêtes / Missing data management in epidemiology : Application of multiple imputation to data from surveillance systems and surveys Héraud Bousquet, Vanina 06 April 2012 (has links) Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d’intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L’objectif de ce travail a été d’investiguer et d’appliquer une méthode d’imputation multiple à des données transversales d’enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l’application d’une méthode d’imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l’infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d’une base de données de surveillance de l’hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind’identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d’application d’une analyse de sensibilité aux hypothèses sous-jacentes àl’imputation multiple. Enfin, nous avons décrit l’élaboration d’un processus d’imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d’évaluation et devalidation.Les applications pratiques présentées nous ont permis d’élaborer une stratégie de traitement des données manquantes, incluant l’examen approfondi de la base de données incomplète, la construction du modèle d’imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses. / The management of missing values is a common and widespread problem in epidemiology. The most common technique used restricts the data analysis to subjects with complete information on variables of interest, which can reducesubstantially statistical power and precision and may also result in biased estimates.This thesis investigates the application of multiple imputation methods to manage missing values in epidemiological studies and surveillance systems for infectious diseases. Study designs to which multiple imputation was applied were diverse: a risk analysis of HIV transmission through blood transfusion, a case-control study on risk factors for ampylobacter infection, and a capture-recapture study to estimate the number of new HIV diagnoses among children. We then performed multiple imputation analysis on data of a surveillance system for chronic hepatitis C (HCV) to assess risk factors of severe liver disease among HCV infected patients who reported drug use. Within this study on HCV, we proposedguidelines to apply a sensitivity analysis in order to test the multiple imputation underlying hypotheses. Finally, we describe how we elaborated and applied an ongoing multiple imputation process of the French national HIV surveillance database, evaluated and attempted to validate multiple imputation procedures.Based on these practical applications, we worked out a strategy to handle missing data in surveillance data base, including the thorough examination of the incomplete database, the building of the imputation model, and the procedure to validate imputation models and examine underlying multiple imputation hypotheses. Données manquantes Imputation multiple Analyse de sensibilité Enquêtes Systèmes de surveillance VIH Hépatite C chronique Missing data Multiple imputation Sensitivity analysis Surveillance systems Surveys HIV Chronic hepatitis C
9	Novel computationally intelligent machine learning algorithms for data mining and knowledge discovery Gheyas, Iffat A. January 2009 (has links) This thesis addresses three major issues in data mining regarding feature subset selection in large dimensionality domains, plausible reconstruction of incomplete data in cross-sectional applications, and forecasting univariate time series. For the automated selection of an optimal subset of features in real time, we present an improved hybrid algorithm: SAGA. SAGA combines the ability to avoid being trapped in local minima of Simulated Annealing with the very high convergence rate of the crossover operator of Genetic Algorithms, the strong local search ability of greedy algorithms and the high computational efficiency of generalized regression neural networks (GRNN). For imputing missing values and forecasting univariate time series, we propose a homogeneous neural network ensemble. The proposed ensemble consists of a committee of Generalized Regression Neural Networks (GRNNs) trained on different subsets of features generated by SAGA and the predictions of base classifiers are combined by a fusion rule. This approach makes it possible to discover all important interrelations between the values of the target variable and the input features. The proposed ensemble scheme has two innovative features which make it stand out amongst ensemble learning algorithms: (1) the ensemble makeup is optimized automatically by SAGA; and (2) GRNN is used for both base classifiers and the top level combiner classifier. Because of GRNN, the proposed ensemble is a dynamic weighting scheme. This is in contrast to the existing ensemble approaches which belong to the simple voting and static weighting strategy. The basic idea of the dynamic weighting procedure is to give a higher reliability weight to those scenarios that are similar to the new ones. The simulation results demonstrate the validity of the proposed ensemble model. 006.3
10	Traitement des données manquantes en épidémiologie : Application de l'imputation multiple à des données de surveillance et d'enquêtes. Héraud Bousquet, Vanina 06 April 2012 (has links) (PDF) Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d'intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L'objectif de ce travail a été d'investiguer et d'appliquer une méthode d'imputation multiple à des données transversales d'enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l'application d'une méthode d'imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l'infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d'une base de données de surveillance de l'hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind'identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d'application d'une analyse de sensibilité aux hypothèses sous-jacentes àl'imputation multiple. Enfin, nous avons décrit l'élaboration d'un processus d'imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d'évaluation et devalidation.Les applications pratiques présentées nous ont permis d'élaborer une stratégie de traitement des données manquantes, incluant l'examen approfondi de la base de données incomplète, la construction du modèle d'imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses. Données manquantes Imputation multiple Analyse de sensibilité Enquêtes Systèmes de surveillance VIH Hépatite C chronique

Search results