Global ETD Search

1	Analyse statistique de données biologiques à haut débit / Statistical analysis of high-throughput biological data Aubert, Julie 07 February 2017 (has links) Les progrès technologiques des vingt dernières années ont permis l’avènement d'une biologie à haut-débit reposant sur l'obtention de données à grande échelle de façon automatique. Les statisticiens ont un rôle important à jouer dans la modélisation et l'analyse de ces données nombreuses, bruitées, parfois hétérogènes et recueillies à différentes échelles. Ce rôle peut être de plusieurs natures. Le statisticien peut proposer de nouveaux concepts ou méthodes inspirées par les questions posées par cette biologie. Il peut proposer une modélisation fine des phénomènes observés à l'aide de ces technologies. Et lorsque des méthodes existent et nécessitent seulement une adaptation, le rôle du statisticien peut être celui d'un expert, qui connaît les méthodes, leurs limites et avantages. Le travail présenté dans cette thèse se situe à l'interface entre mathématiques appliquées et biologie, et relève plutôt des deuxième et troisième type de rôles mentionnés.Dans une première partie, j’introduis différentes méthodes développées pour l'analyse de données biologiques à haut débit, basées sur des modèles à variables latentes. Ces modèles permettent d'expliquer un phénomène observé à l'aide de variables cachées. Le modèle à variables latentes le plus simple est le modèle de mélange. Les deux premières méthodes présentées en sont des exemples: la première dans un contexte de tests multiples et la deuxième dans le cadre de la définition d'un seuil d'hybridation pour des données issues de puces à ADN. Je présente également un modèle de chaînes de Markov cachées couplées pour la détection de variations du nombre de copies en génomique prenant en compte de la dépendance entre les individus, due par exemple à une proximité génétique. Pour ce modèle, nous proposons une inférence approchée fondée sur une approximation variationnelle, l'inférence exacte ne pouvant pas être envisagée dès lors que le nombre d'individus augmente. Nous définissons également un modèle à blocs latents modélisant une structure sous-jacente par bloc de lignes et colonnes adaptées à des données de comptage issue de l'écologie microbienne. Les données issues de méta-codebarres ou de métagénomique correspondent à l'abondance de chaque unité d'intérêt (par exemple micro-organisme) d'une communauté microbienne au sein d'environnement (rhizosphère de plante, tube digestif humain, océan par exemple). Ces données ont la particularité de présenter une dispersion plus forte qu'attendue sous les modèles les plus classiques (on parle de sur-dispersion). La classification croisée est une façon d'étudier les interactions entre la structure des communautés microbiennes et les échantillons biologiques dont elles sont issues. Nous avons proposé de modéliser ce phénomène à l'aide d'une distribution Poisson-Gamma et développé une autre approximation variationnelle pour ce modèle particulier ainsi qu'un critère de sélection de modèle. La flexibilité et la performance du modèle sont illustrées sur trois jeux de données réelles.Une deuxième partie est consacrée à des travaux dédiés à l'analyse de données de transcriptomique issues des technologies de puce à ADN et de séquençage de l’ARN. La première section concerne la normalisation des données (détection et correction de biais techniques) et présente deux nouvelles méthodes que j’ai proposées avec mes co-auteurs et une comparaison de méthodes à laquelle j’ai contribuée. La deuxième section dédiée à la planification expérimentale présente une méthode pour analyser les dispositifs dit en dye-switch.Dans une dernière partie, je montre à travers deux exemples de collaboration, issues respectivement d'une analyse de gènes différentiellement exprimés à partir de données issues de puces à ADN, et d'une analyse du traductome chez l'oursin à partir de données de séquençage de l'ARN, la façon dont les compétences statistiques sont mobilisées et la plus-value apportée par les statistiques aux projets de génomique. / The technological progress of the last twenty years allowed the emergence of an high-throuput biology basing on large-scale data obtained in a automatic way. The statisticians have an important role to be played in the modelling and the analysis of these numerous, noisy, sometimes heterogeneous and collected at various scales. This role can be from several nature. The statistician can propose new concepts, or new methods inspired by questions asked by this biology. He can propose a fine modelling of the phenomena observed by means of these technologies. And when methods exist and require only an adaptation, the role of the statistician can be the one of an expert, who knows the methods, their limits and the advantages.In a first part, I introduce different methods developed with my co-authors for the analysis of high-throughput biological data, based on latent variables models. These models make it possible to explain a observed phenomenon using hidden or latent variables. The simplest latent variable model is the mixture model. The first two presented methods constitutes two examples: the first in a context of multiple tests and the second in the framework of the definition of a hybridization threshold for data derived from microarrays. I also present a model of coupled hidden Markov chains for the detection of variations in the number of copies in genomics taking into account the dependence between individuals, due for example to a genetic proximity. For this model we propose an approximate inference based on a variational approximation, the exact inference not being able to be considered as the number of individuals increases. We also define a latent-block model modeling an underlying structure per block of rows and columns adapted to count data from microbial ecology. Metabarcoding and metagenomic data correspond to the abundance of each microorganism in a microbial community within the environment (plant rhizosphere, human digestive tract, ocean, for example). These data have the particularity of presenting a dispersion stronger than expected under the most conventional models (we speak of over-dispersion). Biclustering is a way to study the interactions between the structure of microbial communities and the biological samples from which they are derived. We proposed to model this phenomenon using a Poisson-Gamma distribution and developed another variational approximation for this particular latent block model as well as a model selection criterion. The model's flexibility and performance are illustrated on three real datasets.A second part is devoted to work dedicated to the analysis of transcriptomic data derived from DNA microarrays and RNA sequencing. The first section is devoted to the normalization of data (detection and correction of technical biases) and presents two new methods that I proposed with my co-authors and a comparison of methods to which I contributed. The second section devoted to experimental design presents a method for analyzing so-called dye-switch design.In the last part, I present two examples of collaboration, derived respectively from an analysis of genes differentially expressed from microrrays data, and an analysis of translatome in sea urchins from RNA-sequencing data, how statistical skills are mobilized, and the added value that statistics bring to genomics projects. Modèles de mélange Données de comptage Normalisation Analyse différentielle Métagénomique Mixture models Count data Normalization Differential analysis Metagenomics
2	Inférence statistique dans des modèles de comptage à inflation de zéro. Applications en économie de la santé / Statistical inference in zero-inflated counts models. Applications in economics of health Diallo, Alpha Oumar 27 November 2017 (has links) Les modèles de régressions à inflation de zéros constituent un outil très puissant pour l’analyse de données de comptage avec excès de zéros, émanant de divers domaines tels que l’épidémiologie, l’économie de la santé ou encore l’écologie. Cependant, l’étude théorique dans ces modèles attire encore peu d’attention. Ce manuscrit s’intéresse au problème de l’inférence dans des modèles de comptage à inflation de zéro.Dans un premier temps, nous revenons sur la question de l’estimateur du maximum de vraisemblance dans le modèle binomial à inflation de zéro. D’abord nous montrons l’existence de l’estimateur du maximum de vraisemblance des paramètres dans ce modèle. Ensuite, nous démontrons la consistance de cet estimateur, et nous établissons sa normalité asymptotique. Puis, une étude de simulation exhaustive sur des tailles finies d’échantillons est menée pour évaluer la cohérence de nos résultats. Et pour finir, une application sur des données réelles d’économie de la santé a été conduite.Dans un deuxième temps, nous proposons un nouveau modèle statistique d’analyse de la consommation de soins médicaux. Ce modèle permet, entre autres, d’identifier les causes du non-recours aux soins médicaux. Nous avons étudié rigoureusement les propriétés mathématiques du modèle. Ensuite nous avons mené une étude numérique approfondie à l’aide de simulations informatiques et enfin, nous l’avons appliqué à l’analyse d’une base de données recensant la consommation de soins de plusieurs milliers de patients aux USA.Un dernier aspect de ces travaux de thèse a été de s’intéresser au problème de l’inférence dans le modèle binomial à inflation de zéro dans un contexte de données manquantes sur les covariables. Dans ce cas nous proposons la méthode de pondération par l’inverse des probabilités de sélection pour estimer les paramètres du modèle. Ensuite, nous établissons la consistance et la normalité asymptotique de l’estimateur proposé. Enfin, une étude de simulation sur plusieurs échantillons de tailles finies est conduite pour évaluer le comportement de l’estimateur. / The zero-inflated regression models are a very powerful tool for the analysis of counting data with excess zeros from various areas such as epidemiology, health economics or ecology. However, the theoretical study in these models attracts little attention. This manuscript is interested in the problem of inference in zero-inflated count models.At first, we return to the question of the maximum likelihood estimator in the zero-inflated binomial model. First we show the existence of the maximum likelihood estimator of the parameters in this model. Then, we demonstrate the consistency of this estimator, and let us establish its asymptotic normality. Then, a comprehensive simulation study finite sample sizes are conducted to evaluate the consistency of our results. Finally, an application on real health economics data has been conduct.In a second time, we propose a new statistical analysis model of the consumption of medical care. This model allows, among other things, to identify the causes of the non-use of medical care. We have studied rigorously the mathematical properties of the model. Then, we carried out an exhaustive numerical study using computer simulations and finally applied to the analysis of a database on health care several thousand patients in the USA.A final aspect of this work was to focus on the problem of inference in the zero inflation binomial model in the context of missing covariate data. In this case we propose the weighting method by the inverse of the selection probabilities to estimate the parameters of the model. Then, we establish the consistency and asymptotic normality of the estimator offers. Finally, a simulation study on several samples of finite sizes is conducted to evaluate the behavior of the estimator. Normalité asymptotique Consistance Données de comptage Excès de zéros Simulations Utilisation de soins de santé Logit multinomial Mappings (Mathematics) Mathematical models 519
3	Periodic models and variations applied to health problems / Modèles périodiques et variations appliqués aux problèmes de santé Prezotti Filho, Paulo Roberto 26 February 2019 (has links) Ce manuscrit porte sur certaines extensions à des séries temporelles prenant des valeurs entières du modèle paramétrique périodique autorégressif établi pour des séries prenant des valeurs réelles. Les modèles que nous considérons sont basés sur l'utilisation de l'opérateur de Steutel et Van Harn (1979) et généralisent le processus autorégressif stationnaire à valeurs entières (INAR) introduit par Al-Osh & Alzaid (1987) à des séries de comptage périodiquement corrélées. Ces généralisations incluent l'introduction d'un opérateur périodique, la prise en compte d'une structure d’autocorrélation plus complexe dont l’ordre est supérieur à un, l'apparition d'innovations de variances périodiques mais aussi à inflation de zéro par rapport à une loi discrète donnée dans la famille des distributions exponentielles, ainsi que l’utilisation de covariables explicatives. Ces extensions enrichissent considérablement le domaine d'applicabilité des modèles de type INAR. Sur le plan théorique, nous établissons des propriétés mathématiques de nos modèles telles que l'existence, l'unicité, la stationnarité périodique de solutions aux équations définissant les modèles. Nous proposons trois méthodes d'estimation des paramètres des modèles dont une méthode des moments basée sur des équations du type Yule-Walker, une méthode des moindres carrés conditionnels, et une méthode du quasi maximum de vraisemblance (QML) basée sur la maximisation d'une vraisemblance gaussienne. Nous établissons la consistance et la normalité asymptotique de ces procédures d'estimation. Des simulations de type Monte Carlo illustrent leur comportement pour différentes tailles finies d'échantillon. Les modèles sont ensuite ajustés à des données réelles et utilisés à des fins de prédiction. La première extension du modèle INAR que nous proposons consiste à introduire deux opérateurs de Steutel et Van Harn périodiques, l'un modélisant les autocorrélations partielles d'ordre un sur chaque période et l'autre captant la saisonnalité périodique des données. Grâce à une représentation vectorielle du processus, nous établissons les conditions l'existence et d'unicité d'une solution périodiquement corrélées aux équations définissant le modèle. Dans le cas où les innovations suivent des lois de Poisson, nous étudions la loi marginale du processus. Á titre d'exemple d'application sur des données réelles, nous ajustons ce modèle à des données de comptage journalières du nombre de personnes ayant reçu des antibiotiques pour le traitement de maladies respiratoires dans la région de Vitória au Brésil. Comme les affections respiratoires sont fortement corrélées au niveau de pollution atmosphérique et aux conditions climatiques, la structure de corrélation des nombres quotidiens de personnes recevant des antibiotiques montre, entre autres caractéristiques, une périodicité et un caractère saisonnier hebdomadaire. Nous étendons ensuite ce modèle à des données présentant des autocorrélations partielles périodiques d'ordre supérieur à un. Nous étudions les propriétés statistiques du modèle, telles que la moyenne, la variance, les distributions marginales et jointes. Nous ajustons ce modèle au nombre quotidien de personnes recevant du service d'urgence de l'hôpital public de Vitória un traitement pour l'asthme. Enfin, notre dernière extension porte sur l'introduction d'innovations suivant une loi de Poisson à inflation de zéro dont les paramètres varient périodiquement, et sur l’ajout de covariables expliquant le logarithme de l'intensité de la loi de Poisson. Nous établissons certaines propriétés statistiques du modèle et nous mettons en oeuvre la méthode du QML pour estimer ses paramètres. Enfin, nous appliquons cette modélisation à des données journalières du nombre de personnes qui se sont rendues dans le service d'urgence d'un hôpital pour des problèmes respiratoires, et nous utilisons comme covariable la concentration de polluant dans la même zone géographique. / This manuscript deals with some extensions to time series taking integer values of the autoregressive periodic parametric model established for series taking real values. The models we consider are based on the use of the operator of Steutel and Van Harn (1979) and generalize the stationary integer autoregressive process (INAR) introduced by Al-Osh & Alzaid (1987) to periodically correlated counting series. These generalizations include the introduction of a periodic operator, the taking into account of a more complex autocorrelation structure whose order is higher than one, the appearance of innovations of periodic variances but also at zero inflation by relation to a discrete law given in the family of exponential distributions, as well as the use of explanatory covariates. These extensions greatly enrich the applicability domain of INAR type models. On the theoretical level, we establish mathematical properties of our models such as the existence, the uniqueness, the periodic stationarity of solutions to the equations defining the models. We propose different methods for estimating model parameters, including a method of moments based on Yule-Walker equations, a conditional least squares method, and a quasi-maximum likelihood method based on the maximization of a Gaussian likelihood. We establish the consistency and asymptotic normality of these estimation procedures. Monte Carlo simulations illustrate their behavior for different finite sample sizes. The models are then adjusted to real data and used for prediction purposes.The first extension of the INAR model that we propose consists of introducing two periodic operators of Steutel and Van Harn, one modeling the partial autocorrelations of order one on each period and the other capturing the periodic seasonality of the data. Through a vector representation of the process, we establish the conditions of existence and uniqueness of a solution periodically correlated to the equations defining the model. In the case where the innovations follow Poisson's laws, we study the marginal law of the process. As an example of real-world application, we are adjusting this model to daily count data on the number of people who received antibiotics for the treatment of respiratory diseases in the Vitória region in Brazil. Because respiratory conditions are strongly correlated with air pollution and weather, the correlation pattern of the daily numbers of people receiving antibiotics shows, among other characteristics, weekly periodicity and seasonality. We then extend this model to data with periodic partial autocorrelations of order higher than one. We study the statistical properties of the model, such as mean, variance, marginal and joined distributions. We are adjusting this model to the daily number of people receiving emergency service from the public hospital of the municipality of Vitória for treatment of asthma. Finally, our last extension deals with the introduction of innovations according to a Poisson law with zero inflation whose parameters vary periodically, and on the addition of covariates explaining the logarithm of the intensity of the Poisson's law. We establish some statistical properties of the model, and we use the conditional maximum likelihood method to estimate its parameters. Finally, we apply this modeling to daily data of the number of people who have visited a hospital's emergency department for respiratory problems, and we use the concentration of a pollutant in the same geographical area as a covariate. / Este manuscrito trata de algumas extensões para séries temporais de valores inteiros domodelo paramétrico periódico autorregressivo estabelecido séries temporais de valores reais. Osmodelos considerados baseiam-se no uso do operadorde Steutel e Van Harn (1979) e generalizamo processo autorregressivo depara números inteiros estacionários (INAR) introduzidos por Al-Osh & Alzaid(1987) para séries de contagem periodicamente correlacionadas. Essas generalizações incluem aintrodução de um operador periódico, a consideração de uma estrutura de autocorrelação mais complexa,cuja ordem é maior do que um, o aparecimentode inovações de variâncias periódicas, e também ainflação zero em relação a uma lei discreta dadana família de distribuições exponenciais, bem comoo uso de covariáveis explicativas. Essas extensões enriquecem muito o domínio de aplicabilidade dosmodelos do tipo INAR. No nível teórico, estabelecemospropriedades matemáticas de nossos modeloscomo a existência, a unicidade, e a estacionariedadeperiódica de soluções para as equações que definemos modelos. Propomos três métodos para estimarparâmetros de modelos, incluindo um métodode momentos baseado nas equações de Yule-Walker,um método de mínimos quadrados condicionais e ummétodo de quasi-máxima verossimilhança (QML) baseadona maximização de uma probabilidade Gaussiana. Estabelecemos a consistência e a normalidadeassintótica desses procedimentos de estimativa. Assimulações de Monte Carlo ilustram seus comportamentospara diferentes tamanhos de amostras finitas.Os modelos são então ajustados para dados reais eusados para fins de previsão. A primeira extensão domodelo INAR que propomos consiste na introdução de dois operadores periódicos de Steutel e VanHarn, o primeiro atua modelando as autocorrelações parciais de ordem um em cada período e o outro capturando a sazonalidade periódica dos dados.Através de uma representação vetorial do processo,estabelecemos as condições existência e unicidadede uma solução periodicamente correlacionada às equações que definem o modelo. No casoem que as inovações seguem as leis de Poisson,estudamos a lei marginal do processo. Como umexemplo de aplicação no mundo real, estamos ajustandoeste modelo aos dados diários de contagemdo número de pessoas que receberam antibióticos para o tratamento de doenças respiratórias na região de Vitória, Brasil. Como as condições respiratórias estão fortemente correlacionadas com a poluição doar e o clima, o padrão de correlação dos números diários de pessoas que recebem antibióticos mostra,entre outras características, a periodicidade semanale a sazonalidade. Em seguida, estendemosesse modelo para dados com autocorrelações parciaisperiódicas de ordem maior que um. Estudamosas propriedades estatísticas do modelo, como média,variância, distribuições marginais e conjuntas. Ajustamosesse modelo ao número diário de pessoascom problema respiratório que receberam atendimentode emergência no pronto-atendimento da redepública do município de Vitória. Finalmente, nossa última extensão trata da introdução de inovações de acordo com uma lei de Poisson com inflação zero cujos parâmetros variam periodicamente, e daadição de covariáveis explicando o logaritmo da intensidadeda lei de Poisson. Estabelecemos algumaspropriedades estatísticas do modelo e usamoso método QML para estimar seus parâmetros. Porfim, aplicamos essa modelagem aos dados diários sobre o número de pessoas que visitaram o departamentode emergência de um hospital por problemasrespiratórios e usamos como covariável a sérieconcentrações diárias e um poluente medido namesma área geográfica. Modèles INAR Saisonnalité Modèles PINAR Périodicité Modèles ZIP Données de comptage Seasonality ZIP Models Periodicity INAR Models PINAR Models Count time series Séries temporais de contagem Periodicidade Modelo INAR Modelo PINAR Modelo ZIP Sazonalidade

1

Page generated in 0.0752 seconds