Global ETD Search

191	Developments in statistics applied to hydrometeorology : imputation of streamflow data and semiparametric precipitation modeling / Développements en statistiques appliquées à l'hydrométéorologie : imputation de données de débit et modélisation semi-paramétrique de la précipitation Tencaliec, Patricia 01 February 2017 (has links) Les précipitations et les débits des cours d'eau constituent les deux variables hydrométéorologiques les plus importantes pour l'analyse des bassins versants. Ils fournissent des informations fondamentales pour la gestion intégrée des ressources en eau, telles que l’approvisionnement en eau potable, l'hydroélectricité, les prévisions d'inondations ou de sécheresses ou les systèmes d'irrigation.Dans cette thèse de doctorat sont abordés deux problèmes distincts. Le premier prend sa source dans l’étude des débits des cours d’eau. Dans le but de bien caractériser le comportement global d'un bassin versant, de longues séries temporelles de débit couvrant plusieurs dizaines d'années sont nécessaires. Cependant les données manquantes constatées dans les séries représentent une perte d'information et de fiabilité, et peuvent entraîner une interprétation erronée des caractéristiques statistiques des données. La méthode que nous proposons pour aborder le problème de l'imputation des débits se base sur des modèles de régression dynamique (DRM), plus spécifiquement, une régression linéaire multiple couplée à une modélisation des résidus de type ARIMA. Contrairement aux études antérieures portant sur l'inclusion de variables explicatives multiples ou la modélisation des résidus à partir d'une régression linéaire simple, l'utilisation des DRMs permet de prendre en compte les deux aspects. Nous appliquons cette méthode pour reconstruire les données journalières de débit à huit stations situées dans le bassin versant de la Durance (France), sur une période de 107 ans. En appliquant la méthode proposée, nous parvenons à reconstituer les débits sans utiliser d'autres variables explicatives. Nous comparons les résultats de notre modèle avec ceux obtenus à partir d'un modèle complexe basé sur les analogues et la modélisation hydrologique et d'une approche basée sur le plus proche voisin. Dans la majorité des cas, les DRMs montrent une meilleure performance lors de la reconstitution de périodes de données manquantes de tailles différentes, dans certains cas pouvant allant jusqu'à 20 ans.Le deuxième problème que nous considérons dans cette thèse concerne la modélisation statistique des quantités de précipitations. La recherche dans ce domaine est actuellement très active car la distribution des précipitations exhibe une queue supérieure lourde et, au début de cette thèse, il n'existait aucune méthode satisfaisante permettant de modéliser toute la gamme des précipitations. Récemment, une nouvelle classe de distribution paramétrique, appelée distribution généralisée de Pareto étendue (EGPD), a été développée dans ce but. Cette distribution exhibe une meilleure performance, mais elle manque de flexibilité pour modéliser la partie centrale de la distribution. Dans le but d’améliorer la flexibilité, nous développons, deux nouveaux modèles reposant sur des méthodes semiparamétriques.Le premier estimateur développé transforme d'abord les données avec la distribution cumulative EGPD puis estime la densité des données transformées en appliquant un estimateur nonparamétrique par noyau. Nous comparons les résultats de la méthode proposée avec ceux obtenus en appliquant la distribution EGPD paramétrique sur plusieurs simulations, ainsi que sur deux séries de précipitations au sud-est de la France. Les résultats montrent que la méthode proposée se comporte mieux que l'EGPD, l’erreur absolue moyenne intégrée (MIAE) de la densité étant dans tous les cas presque deux fois inférieure.Le deuxième modèle considère une distribution EGPD semiparamétrique basée sur les polynômes de Bernstein. Plus précisément, nous utilisons un mélange creuse de densités béta. De même, nous comparons nos résultats avec ceux obtenus par la distribution EGPD paramétrique sur des jeux de données simulés et réels. Comme précédemment, le MIAE de la densité est considérablement réduit, cet effet étant encore plus évident à mesure que la taille de l'échantillon augmente. / Precipitation and streamflow are the two most important meteorological and hydrological variables when analyzing river watersheds. They provide fundamental insights for water resources management, design, or planning, such as urban water supplies, hydropower, forecast of flood or droughts events, or irrigation systems for agriculture.In this PhD thesis we approach two different problems. The first one originates from the study of observed streamflow data. In order to properly characterize the overall behavior of a watershed, long datasets spanning tens of years are needed. However, the quality of the measurement dataset decreases the further we go back in time, and blocks of data of different lengths are missing from the dataset. These missing intervals represent a loss of information and can cause erroneous summary data interpretation or unreliable scientific analysis.The method that we propose for approaching the problem of streamflow imputation is based on dynamic regression models (DRMs), more specifically, a multiple linear regression with ARIMA residual modeling. Unlike previous studies that address either the inclusion of multiple explanatory variables or the modeling of the residuals from a simple linear regression, the use of DRMs allows to take into account both aspects. We apply this method for reconstructing the data of eight stations situated in the Durance watershed in the south-east of France, each containing daily streamflow measurements over a period of 107 years. By applying the proposed method, we manage to reconstruct the data without making use of additional variables, like other models require. We compare the results of our model with the ones obtained from a complex approach based on analogs coupled to a hydrological model and a nearest-neighbor approach, respectively. In the majority of cases, DRMs show an increased performance when reconstructing missing values blocks of various lengths, in some of the cases ranging up to 20 years.The second problem that we approach in this PhD thesis addresses the statistical modeling of precipitation amounts. The research area regarding this topic is currently very active as the distribution of precipitation is a heavy-tailed one, and at the moment, there is no general method for modeling the entire range of data with high performance. Recently, in order to propose a method that models the full-range precipitation amounts, a new class of distribution called extended generalized Pareto distribution (EGPD) was introduced, specifically with focus on the EGPD models based on parametric families. These models provide an improved performance when compared to previously proposed distributions, however, they lack flexibility in modeling the bulk of the distribution. We want to improve, through, this aspect by proposing in the second part of the thesis, two new models relying on semiparametric methods.The first method that we develop is the transformed kernel estimator based on the EGPD transformation. That is, we propose an estimator obtained by, first, transforming the data with the EGPD cdf, and then, estimating the density of the transformed data by applying a nonparametric kernel density estimator. We compare the results of the proposed method with the ones obtained by applying EGPD on several simulated scenarios, as well as on two precipitation datasets from south-east of France. The results show that the proposed method behaves better than parametric EGPD, the MIAE of the density being in all the cases almost twice as small.A second approach consists of a new model from the general EGPD class, i.e., we consider a semiparametric EGPD based on Bernstein polynomials, more specifically, we use a sparse mixture of beta densities. Once again, we compare our results with the ones obtained by EGPD on both simulated and real datasets. As before, the MIAE of the density is considerably reduced, this effect being even more obvious as the sample size increases. Imputation des débits Modèles de régression dynamique Polynômes de Bernstein Estimateur nonparamétrique par noyau Streamflow imputation Dynamic regression models Extended generalized Pareto distribution Bernstein polynomials Nonparametric kernel estimator 510
192	Fiscalité environnementale, dette publique et croissance économique : une analyse macroéconomique / Environmental taxation, public debt and economic growth : a macroeconomic analysis Hassan, Mahmoud 11 June 2018 (has links) Les politiques environnementales, notamment celles recourant aux instruments fiscaux, ont pris une place de plus en plus importante dans un grand nombre de pays durant les trois dernières décennies. Tous les pays de l’OCDE ont introduit des taxes liées à l'environnement et un nombre croissant d'entre eux procèdent à une réforme dite "verte" de leur fiscalité. L’utilisation de la taxe comme un instrument pour la politique environnementale a suscité un large débat parmi les chercheurs sur ses impacts sur la croissance économique, mais sans parvenir à un consensus sur la nature de ces effets. Certains trouvent un effet négatif, alors que d’autres montrent un impact positif. Deux points ont attiré notre attention sur ce sujet. Premièrement, les études empiriques qui vérifient la validité de ces résultats sont très rares. Deuxièmement, la majorité des modèles théoriques qui ont étudié l’effet de la fiscalité environnementale sur la croissance économique supposent que le gouvernement finance ses dépenses uniquement par les taxes et que le budget d’État est équilibré à chaque période, évitant ainsi tout fardeau associé au remboursement de la dette publique. Par conséquent, cette thèse a pour objectif d’abord d’explorer empiriquement la nature de la relation entre la fiscalité environnementale et la croissance économique, et si cette relation est sensible au niveau d'autres variables dans l'économie. Ensuite, nous examinons les canaux par lesquels cette taxe peut affecter la croissance économique, et si l'existence et le niveau de la dette publique peuvent modifier cet effet. / Environmental policies, especially those using fiscal instruments, have become more and more important in a large number of countries over the last three decades. All OECD countries have introduced environmentally related taxes, and a growing number of them are carrying out a so-called "green" reform of their taxation. The use of the tax as an instrument for environmental policy has sparked wide debate among researchers on its impacts on economic growth, but without reaching consensus on the nature of these effects. Some find a negative effect; while others show a positive impact. Two points raised our attention on this subject. First, the empirical studies that verify the validity of these results are very rare. Second, the majority of theoretical models that have studied the effect of environmental taxation on economic growth assume that the government finances its expenditures solely through taxes and that the state budget is balanced each period, thus avoiding any burden associated to repayment of public debt. Therefore, this thesis aims firstly to explore empirically the nature of the relationship between environmental taxation and economic growth, and whether this relationship is sensitive to the level of other variables in the economy. We examine then the channels through which this tax can affect economic growth, and whether the existence and level of public debt can modify this effect. Fiscalité environnementale Dette publique Croissance économique Imputation multiple Effets aléatoires corrélés Modèle à équations simultanées Environmental taxation Public debt Economic growth Multiple imputation Correlated random effects Simultaneous equations model 338.9 336.34 333.7
193	Elastic matching for classification and modelisation of incomplete time series / Appariement élastique pour la classification et la modélisation de séries temporelles incomplètes Phan, Thi-Thu-Hong 12 October 2018 (has links) Les données manquantes constituent un challenge commun en reconnaissance de forme et traitement de signal. Une grande partie des techniques actuelles de ces domaines ne gère pas l'absence de données et devient inutilisable face à des jeux incomplets. L'absence de données conduit aussi à une perte d'information, des difficultés à interpréter correctement le reste des données présentes et des résultats biaisés notamment avec de larges sous-séquences absentes. Ainsi, ce travail de thèse se focalise sur la complétion de larges séquences manquantes dans les séries monovariées puis multivariées peu ou faiblement corrélées. Un premier axe de travail a été une recherche d'une requête similaire à la fenêtre englobant (avant/après) le trou. Cette approche est basée sur une comparaison de signaux à partir d'un algorithme d'extraction de caractéristiques géométriques (formes) et d'une mesure d'appariement élastique (DTW - Dynamic Time Warping). Un package R CRAN a été développé, DTWBI pour la complétion de série monovariée et DTWUMI pour des séries multidimensionnelles dont les signaux sont non ou faiblement corrélés. Ces deux approches ont été comparées aux approches classiques et récentes de la littérature et ont montré leur faculté de respecter la forme et la dynamique du signal. Concernant les signaux peu ou pas corrélés, un package DTWUMI a aussi été développé. Le second axe a été de construire une similarité floue capable de prender en compte les incertitudes de formes et d'amplitude du signal. Le système FSMUMI proposé est basé sur une combinaison floue de similarités classiques et un ensemble de règles floues. Ces approches ont été appliquées à des données marines et météorologiques dans plusieurs contextes : classification supervisée de cytogrammes phytoplanctoniques, segmentation non supervisée en états environnementaux d'un jeu de 19 capteurs issus d'une station marine MAREL CARNOT en France et la prédiction météorologique de données collectées au Vietnam. / Missing data are a prevalent problem in many domains of pattern recognition and signal processing. Most of the existing techniques in the literature suffer from one major drawback, which is their inability to process incomplete datasets. Missing data produce a loss of information and thus yield inaccurate data interpretation, biased results or unreliable analysis, especially for large missing sub-sequence(s). So, this thesis focuses on dealing with large consecutive missing values in univariate and low/un-correlated multivariate time series. We begin by investigating an imputation method to overcome these issues in univariate time series. This approach is based on the combination of shape-feature extraction algorithm and Dynamic Time Warping method. A new R-package, namely DTWBI, is then developed. In the following work, the DTWBI approach is extended to complete large successive missing data in low/un-correlated multivariate time series (called DTWUMI) and a DTWUMI R-package is also established. The key of these two proposed methods is that using the elastic matching to retrieving similar values in the series before and/or after the missing values. This optimizes as much as possible the dynamics and shape of knowledge data, and while applying the shape-feature extraction algorithm allows to reduce the computing time. Successively, we introduce a new method for filling large successive missing values in low/un-correlated multivariate time series, namely FSMUMI, which enables to manage a high level of uncertainty. In this way, we propose to use a novel fuzzy grades of basic similarity measures and fuzzy logic rules. Finally, we employ the DTWBI to (i) complete the MAREL Carnot dataset and then we perform a detection of rare/extreme events in this database (ii) forecast various meteorological univariate time series collected in Vietnam Imputation Données manquantes Séries temporelles univariées Dynamic Time Warping Mesure de similarité Système d'inférence floue Imputation Missing data Univariate time series Uncorrelated multivariate time series Dynamic Time Warping Similarity measure Fuzzy inference system
194	Capital humain, dette publique et croissance économique à long terme / Human capital, public debt and long-term economic growth Murched, Maya 15 January 2016 (has links) La croissance économique et ses moteurs représentent le principal sujet préoccupant les chercheurs en macroéconomie depuis longtemps. Investir en capital humain à travers le système éducatif joue un rôle important pour stimuler la croissance et le développement économique, cette accentuation a pris place depuis la naissance innovante de la théorie de la croissance endogène. L'attention et les efforts dévoués à l'investissement dans le capital humain peuvent être déstabilisés par le retour global et récent de la crise de la dette souveraine dans plusieurs pays, dette qui poursuit son ascension depuis 2007, et les politiques d'ajustement nécessaires d'après-crise. Des judicieuses politiques de redressement devraient être composées d'un mélange des activités encourageant la croissance économique, y compris l'investissement dans le capital humain, l'austérité et le long terme. L'objectif principal de cette thèse est de fournir des nouvelles évidences empiriques sur la relation dette-croissance économique et leurs externalités sur la formation de capital humain, les estimations sont réalisées sur un jeu de données récent et complet couvrant 22 années et 76 pays dans le monde. L'ensemble des variables utilisées englobe de nombreux agrégats macroéconomiques tel que : taux de croissance annuel du PIB, la dette publique en % de PIB, les dépenses publiques d'éducation en % de PIB, le moyen d'année de scolarité, le taux d'inflation, et d'autres. En utilisant une technique d'estimation semi-paramétrique appropriée qui offre des solutions pour de nombreux problèmes concernant les données, les résultats empiriques suggèrent un impact négatif et hétérogène de dette et des dépenses d'éducation publiques sur la croissance du PIB. Là où, l'utilisation des dépenses d'éducation dans l'ensemble de l'échantillon est inefficace, les décideurs politiques devraient ajuster et bien gérer la fonction de ces dépenses en même temps de viser des efforts publics pour réduire les niveaux élevés d'endettement et d'augmenter la croissance économique. Nous montrons également que l'utilisation des outils d'analyse textuelle en économie, offre une lecture rapide et globale des courants de recherche contenus dans la littérature empirique et théorique de la croissance économique. / Economic growth and its driving forces have been the maintopic preoccupying economic researchers since long time in macroeconomic branch. Public investment in human capital through educational system plays an ultimate role in boosting economic growth and development, this role has taken a place since the innovative dawn of endogenous growth theory. The focus and efforts of investing in human capital could be destabilized by the global and recent return of sovereign debt crisis in several countries, which continues its rise since theearly 2007, and the after-crisis necessary adjusting policies. Getting back wise policies should be composed of mixture of growth fostering activities, including the investment in human capital, austerity and forbearance.The main purpose of this thesis is to provide new empirical inferences on debt-growth relationship and its interaction with human capital formation. Estimates are carried on a recent and complete data set that spans over 22 years and involves 76 countries worldwide. The range of invested variables encompasses many macroeconomic aggregates such as : GDP annual growthrates, public debt to GDP ratio, and public education expenditure to GDP ratio, average schooling years, inflation rate, and others. Using a superior estimation semi-parametric technic which accounts for some data issues, the empirical results suggest a heterogeneous impact of public debt and education expenditures levels on GDP growth rates. Henceforth, the use of education expenditure in the whole sample is inefficient,where policy makers should adjust and well manage the function of these expenditure in line with the public efforts to reduce debt high levels and rise economic growth. We also show that the use of textual analysis tools in economic studies, such in growth literature, offers a rapid and total lecture of the hidden research trends embodied in the huge empirical and theoretical literature of economic growth. Croissance économique Capital humain Dette publique Dépenses d'éducation Efficacité Imputation multiple Régression par quantile Economic growth Human capital Public debt Education expenditure Efficiency Multiple imputation Quantile regression Panel data 338.9 336.34
195	Estimation multi-robuste efficace en présence de données influentes Michal, Victoire 08 1900 (has links) No description available. Robustesse Imputation multi-robuste Biais conditionnel Inférence basée sur le plan de sondage Unités influentes Non-réponse Robustness Multiply robust imputation Conditional bias Design-based inference Influential units Item nonresponse
196	Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention Paquin, Stéphane 03 1900 (has links) Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect. Données manquantes Imputation multiple Maximum de vraisemblance Pondération Mécanisme de données manquantes Multiniveau Intervention Analyse longitudinale Analyse de sensibilité Sensitivity analysis Longitudinal Multilevel Experimental Mecanism Missing data Maximum likelihood Weighting Multiple imputation
197	Imputação filogenética: uma perspectiva macroecológica / Phylogenetic imputation: a macroecological perspective Jardim, Lucas Lacerda Caldas Zanini 27 April 2018 (has links) Submitted by Onia Arantes Albuquerque (onia.ufg@gmail.com) on 2018-10-15T15:02:15Z No. of bitstreams: 2 Tese - Lucas Lacerda Caldas Zanini Jardim - 2018.pdf: 5066072 bytes, checksum: 4280b5b19a9111a59fea8065049fd5b3 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-10-15T15:25:17Z (GMT) No. of bitstreams: 2 Tese - Lucas Lacerda Caldas Zanini Jardim - 2018.pdf: 5066072 bytes, checksum: 4280b5b19a9111a59fea8065049fd5b3 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-10-15T15:25:17Z (GMT). No. of bitstreams: 2 Tese - Lucas Lacerda Caldas Zanini Jardim - 2018.pdf: 5066072 bytes, checksum: 4280b5b19a9111a59fea8065049fd5b3 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-04-27 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Macroecology studies ecological pattern at large geographical and temporal scales. At these scales, information about hundreds or even thousands of studied species. This lack of information may potentially bias studies’ conclusions related with macroecological processes and patterns. In this thesis, we evaluated phylogenetic imputation methods, their uses and effects in macroecological studies. The first chapter evaluated different methods used to deal with missing data, taking into account different scenarios of species trait evolution, as well as percentage and pattern of missing data. We found that dealing with missing data relies on the specific goals and data of the study. Therefore, we suggested caution while using imputed database. In the second chapter, we tested the island rule effect in body mass and brain volume of primates. To do so, we fitted evolutionary models to those traits and then imputed the body mass and brain volume for Homo floresiensis. We concluded that primates do not follow the island rule and even though our models overestimated, on average, brain and body size of Homo floresiensis, its evolution did not deviate from primates’ evolutionary expectation. Lastly, in the third chapter, we tested existence of Bergmann’s rule in mammals using multiple imputation methods, in addition to considering the consequences of ignoring missing data while testing the rule. We found that ignoring missing data can invert (eg. changing from positive to negative effect) the effect of temperature on body mass, but this bias did not turn the effect statistically significant. Therefore, we concluded that mammals do not follow Bergmann’s rule, when evaluated at the class taxonomic level. Finally, this thesis discussed pros, cons and future research avenues in order to make phylogenetic imputation a more robust tool to deal with missing data in macroecology. / A macroecologia estuda padrões ecológicos em grandes escalas geográficas e temporais, em busca de quais processos moldam esses padrões. Nessas escalas de estudo, há raramente informações completas sobre as centenas ou até milhares de espécies estudadas. Essa ausência de informações tem o potencial de enviesar as conclusões dos estudos sobre padrões e processos macroecológicos. Nessa tese, nós avaliamos métodos de imputação filogenética, a sua aplicação e consequências em estudos macroecológicos. Para avaliar potenciais vieses do uso de banco de dados imputados, no primeiro capítulo, nós aplicamos diferentes métodos utilizados para tratar dados faltantes, sob diferentes cenários de evolução dos atributos das espécies, porcentagem e padrão dos dados faltantes. Nós encontramos que a forma de tratar o dado faltante pode ser dependente dos objetivos e dos dados de cada estudo e, portanto, nós sugerimos cautela ao utilizarmos bancos de dados imputados. No segundo capítulo, nós testamos o efeito da regra de ilha na evolução da massa corpórea e do volume cerebral de primatas. A partir dos melhores modelos evolutivos ajustados a esses atributos, nós imputamos a massa corpórea e volume cerebral de Homo floresiensis. Nós concluímos que primatas não seguem regra de ilha e que apesar de nossos modelos superestimarem, em média, o tamanho do corpo e cérebro de Homo floresiensis, a sua evolução não se desvia do esperado pela evolução de primatas. Por fim, no terceiro capítulo testamos a regra de Bergmann em mamíferos, utilizando métodos de imputação múltipla e avaliamos as consequências de desconsiderar os dados faltantes na detecção da regra. Nós encontramos que testar a regra sem considerar os dados faltantes pode inverter o efeito da temperatura na massa do corpo, mas esse viés não tornou o efeito estatisticamente significante. Portanto, concluímos que mamíferos não seguem a regra de Bergmann, quando toda a classe é avaliada. Por fim, essa tese discutiu vantagens, desvantagens e futuras linhas de pesquisa para tornar a imputação filogenética uma ferramenta mais robusta para tratarmos dados faltantes em macroecologia. Imputação múltipla Imputação filogenética Macroecologia Dados faltantes Lacuna de conhecimento Regra de Bergmann Homo floresiensis Regra de ilha Multiple imputation Phylogenetic imputation Macroecology Missing data Biodiversity knowledge shortfall Bergmann’s rule Island rule Homo floresiensis CIENCIAS BIOLOGICAS::ECOLOGIA
198	Moving beyond Genome-Wide Association Studies / Comment aller au delà des études d'association à l'échelle du génome entier Delahaye-Sourdeix, Manon 14 November 2014 (has links) Les études d'association à grande échelle consistent à étudier la corrélation de plusieurs millions de polymorphismes nucléotidiques avec un risque de cancer chez des milliers d'individus, sans avoir besoin de connaissances préalables sur la fonction biologique de ces variants. Ces études ont été utiles pour établir des hypothèses étiologiques et comprendre l'architecture génétique sous-jacente de plusieurs maladies humaines. Cependant, la plupart des facteurs héréditaires de ces maladies restent inexpliqués. Une partie de cette variation pourrait venir de variants rares qui ne sont pas ciblés par les puces de génotypage actuelles ou encore de variants avec un effet plus modéré voire faible pour lesquels une détection par les études d'association actuelles n'est pas envisageable. Dans ce contexte et comme illustré dans cette thèse, les récentes études d'association peuvent maintenant servir de point de départ pour de nouvelles découvertes, en mettant en place des stratégies innovantes pour étudier à la fois les variants rares et les maladies rares. Nous avons plus particulièrement exploré ces techniques dans le cadre du cancer du poumon, des voies aérodigestives et du lymphome de Hodgkins. L'utilisation de la bioinformatique pour combiner les résultats des études avec d'autres sources d'information, l'intégration de différents types de données génomiques ainsi que l'investigation de la relation entre altérations germinales et somatiques représentent les principales opportunités poursuivies dans ce travail de thèse / Genome-wide association (GWA) studies consist in testing up to one million (or more) single nucleotide polymorphisms (SNPs) for their association with cancer risk in thousands of individuals, without requiring any prior knowledge on the functional significance of these variants. These studies have been valuable for establishing etiological hypotheses and understanding the underlying genetic architecture of human diseases. However, most of the heritable factors of these traits remain unexplained. Part of this variation may come from rarer variants that are not targeted by current genotyping arrays or variants with moderate to low effects for which detection by current GWA studies is impractical. In this context and as illustrated in this thesis, GWA studies can now serve as starting points towards further discoveries, looking for new strategies to study both rarer variants and rarer diseases. We have specifically explored these approaches in the context of lung cancer, head and neck cancer and Hodgkin's lymphoma. The use of bioinformatics to combine recent GWA study results with other sources of information, the integration of different types of genomic data as well as the investigation of the interrelationship between germline and somatic alterations represent the main opportunities pursued in this thesis work Étude d'association Susceptibilité génétique Sequençage haut débit Imputation Cancer du poumon Cancer des voies aérodigestives Lymphome de Hodgkins Variants rares GWAS Genetic susceptibility Next generation sequencing Imputation Lung cancer Head and neck cancer Hodgkin's lymphoma Rare variants 570.15
199	Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale / Contribution to variable selection in the presence of longitudinal data : application to biomarkers derived from medical imaging Geronimi, Julia 13 December 2016 (has links) Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps. / Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time. Sélection de variables Données longitudinales Données manquantes Équations d'estimation généralisées Données corrélées Imputation multiple Variable selection Longitudinal data Missing data Generalized estimating equations Correlated data Multiple imputation 519.5 610.151 95
200	Attrition in Studies of Cognitive Aging / Bortfall i studier av kognitivt åldrande Josefsson, Maria January 2013 (has links) Longitudinal studies of cognition are preferred to cross-sectional stud- ies, since they offer a direct assessment of age-related cognitive change (within-person change). Statistical methods for analyzing age-related change are widely available. There are, however, a number of challenges accompanying such analyzes, including cohort differences, ceiling- and floor effects, and attrition. These difficulties challenge the analyst and puts stringent requirements on the statistical method being used. The objective of Paper I is to develop a classifying method to study discrepancies in age-related cognitive change. The method needs to take into account the complex issues accompanying studies of cognitive aging, and specifically work out issues related to attrition. In a second step, we aim to identify predictors explaining stability or decline in cognitive performance in relation to demographic, life-style, health-related, and genetic factors. In the second paper, which is a continuation of Paper I, we investigate brain characteristics, structural and functional, that differ between suc- cessful aging elderly and elderly with an average cognitive performance over 15-20 years. In Paper III we develop a Bayesian model to estimate the causal effect of living arrangement (living alone versus living with someone) on cog- nitive decline. The model must balance confounding variables between the two living arrangement groups as well as account for non-ignorable attrition. This is achieved by combining propensity score matching with a pattern mixture model for longitudinal data. In paper IV, the objective is to adapt and implement available impu- tation methods to longitudinal fMRI data, where some subjects are lost to follow-up. We apply these missing data methods to a real dataset, and evaluate these methods in a simulation study. Attrition missing data age-related cognitive change non- ignorable dropout monotone missing pattern mixture models pattern- mixture models imputation

Search results