• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 11
  • 5
  • 2
  • Tagged with
  • 17
  • 17
  • 12
  • 11
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Modélisation et estimation de variances hétérogènes dans les modèles non linéaires mixtes

Duval, Mylene 08 December 2008 (has links) (PDF)
Les modèles non linéaires occupent une place à part dans la méthodologie des modèles mixtes. Contrairement aux modèles linéaire et linéaire généralisés qui s'apparentent souvent à des boites noires, la fonction d'ajustement des données dans le cas non linéaire provient en général de l'intégration d'une équation différentielle ce qui confère à ces modèles une dimension "explicative" beaucoup plus riche et souvent plus parcimonieuse. D'autre part, l'estimation des paramètres y est difficile du fait de l'impossibilité d'une intégration analytique des effets aléatoires. Comme dans tous les modèles mixtes notamment ceux appliqués aux données longitudinales, ils permettent bien de prendre en compte la variabilité entre et intra unités expérimentales. Mais, là comme ailleurs, le statut des résidus supposés habituellement indépendants et identiquement distribués suivant une loi normale de variance homogène reste problématique car fréquemment irréaliste. L'objet de ce travail était de présenter quelques possibilités de modélisation de ces variances résiduelles qui prennent en compte la grande hétérogénéité potentielle de celles-ci, mais dans un souci délibéré d'économie vis-à-vis du nombre de nouveaux paramètres impliqués dans ces fonctions. C'est pourquoi, en sus de la relation classique moyenne-variance, nous avons opté pour une approche paramétrique de type "modèle mixte" sur les logvariances. Nous avons choisi une méthode d'inférence classique basée sur la théorie du maximum de vraisemblance et, dans ce cadre complexe, nous avons considéré un algorithme de type EM stochastique plus précisément l'algorithme dit SAEM-MCMC. La structure de modèle mixte à la fois sur les paramètres de position et de dispersion se prête particulièrement bien à la mise en oeuvre de ces algorithmes EM. La phase MCMC, a nécessité la mise au point et le calibrage de distributions instrumentales adaptées à cette situation ainsi que la définition de critères permettant de contrôler la convergence de l'algorithme. Le tout a été validé numériquement dans le cadre linéaire et non linéaire par comparaison à des algorithmes EM analytiques quand ils existaient (cas linéaire) ou à d'autres algorithmes numériques tels ceux basés sur la quadrature de Gauss. Ces techniques ont été illustrées par l'analyse de profils de comptage de cellules somatiques de vaches laitières. Plusieurs modèles linéaire et non linéaires sont comparés et montrent clairement l'intérêt d'une modélisation mixte des variances résiduelles.
2

Modèles mixtes à structure latente pour données<br />longitudinales multivariées hétérogènes :<br />application à l'étude du vieillissement cognitif et<br />de la démence

Proust-Lima, Cecile 19 December 2006 (has links) (PDF)
Ce travail avait pour objectif de proposer des modèles statistiques pour données longitudinales, hétérogènes et multivariées afin de décrire l'évolution cognitive chez les personnes âgés et son association avec la démence. La cognition étant une quantité non-observée mesurée par des tests psychométriques quantitatifs non Gaussiens, nous avons proposé un modèle nonlinéaire à processus latent dans lequel, l'évolution cognitive représentée par le processus latent est décrite par un modèle linéaire mixte incluant des variables explicatives et un processus Brownien. Les tests psychométriques et le processus latent sont liés par des transformations nonlinéaires estimées prenant en compte des effets différents des variables explicatives. Outre décrire les propriétés métrologiques des tests et faire des recommandations sur le test à utiliser suivant la population étudiée, nous avons pu distinguer l'effet de variables explicatives sur l'évolution cognitive latente de leur effet propre sur les tests. Nous avons ensuite étendu cette approche pour prendre en compte l'hétérogénéité de l'évolution cognitive associée à la survenue d'une démence par deux modèles conjoints à classes latentes. En étudiant d'abord la probabilité de démence en fin de suivi conjointement au déclin cognitif, nous avons mis en évidence deux profils d'évolution représentant le processus de vieillissement normal et le processus de vieillissement pathologique. Puis, en étudiant le risque de démence conjointement au déclin cognitif en fonction de l'âge, nous avons montré 5 formes de déclin cognitifs suivant l'âge associés à des risques différents de démence. Ces deux modèles conjoints nous ont aussi permis de proposer des outils de détection de démence calculés à partir de n'importe quelle information cognitive. Chacun des trois modèles proposés a été évalué par le biais d'études de simulation, puis appliqué sur les données de la cohorte PAQUID et enfin, plusieurs méthodes ont été proposées pour évaluer l'adéquation aux données.
3

Heritability Estimation in High-dimensional Mixed Models : Theory and Applications. / Estimation de l'héritabilité dans les modèles mixtes en grande dimension : théorie et applications.

Bonnet, Anna 05 December 2016 (has links)
Nous nous intéressons à desméthodes statistiques pour estimer l'héritabilitéd'un caractère biologique, qui correspond à lapart des variations de ce caractère qui peut êtreattribuée à des facteurs génétiques. Nousproposons dans un premier temps d'étudierl'héritabilité de traits biologiques continus àl'aide de modèles linéaires mixtes parcimonieuxen grande dimension. Nous avons recherché lespropriétés théoriques de l'estimateur du maximumde vraisemblance de l'héritabilité : nousavons montré que cet estimateur était consistantet vérifiait un théorème central limite avec unevariance asymptotique que nous avons calculéeexplicitement. Ce résultat, appuyé par des simulationsnumériques sur des échantillons finis,nous a permis de constater que la variance denotre estimateur était très fortement influencéepar le ratio entre le nombre d'observations et lataille des effets génétiques. Plus précisément,quand le nombre d’observations est faiblecomparé à la taille des effets génétiques (ce quiest très souvent le cas dans les étudesgénétiques), la variance de l’estimateur était trèsgrande. Ce constat a motivé le développementd'une méthode de sélection de variables afin dene garder que les variants génétiques les plusimpliqués dans les variations phénotypiques etd’améliorer la précision des estimations del’héritabilité.La dernière partie de cette thèse est consacrée àl'estimation d'héritabilité de données binaires,dans le but d'étudier la part de facteursgénétiques impliqués dans des maladies complexes.Nous proposons d'étudier les propriétésthéoriques de la méthode développée par Golanet al. (2014) pour des données de cas-contrôleset très efficace en pratique. Nous montronsnotamment la consistance de l’estimateur del’héritabilité proposé par Golan et al. (2014). / We study statistical methods toestimate the heritability of a biological trait,which is the proportion of variations of thistrait that can be explained by genetic factors.First, we propose to study the heritability ofquantitative traits using high-dimensionalsparse linear mixed models. We investigate thetheoretical properties of the maximumlikelihood estimator for the heritability and weshow that it is a consistent estimator and that itsatisfies a central limit theorem with a closedformexpression for the asymptotic variance.This result, supported by an extendednumerical study, shows that the variance of ourestimator is strongly affected by the ratiobetween the number of observations and thesize of the random genetic effects. Moreprecisely, when the number of observations issmall compared to the size of the geneticeffects (which is often the case in geneticstudies), the variance of our estimator is verylarge. This motivated the development of avariable selection method in order to capturethe genetic variants which are involved themost in the phenotypic variations and providemore accurate heritability estimations. Wepropose then a variable selection methodadapted to high dimensional settings and weshow that, depending on the number of geneticvariants actually involved in the phenotypicvariations, called causal variants, it was a goodidea to include or not a variable selection stepbefore estimating heritability.The last part of this thesis is dedicated toheritability estimation for binary data, in orderto study the proportion of genetic factorsinvolved in complex diseases. We propose tostudy the theoretical properties of the methoddeveloped by Golan et al. (2014) for casecontroldata, which is very efficient in practice.Our main result is the proof of the consistencyof their heritability estimator.
4

Modélisation de la composante génétique des maladies humaines : Données familiales et Modèles Mixtes / Modelisation of Genetic Risk in Human Diseases : Family Data and Mixed Model

Dandine-Roulland, Claire 04 October 2016 (has links)
Le modèle linéaire mixte a été formalisé il y a plus de 60 ans. Celui-ci permet d'estimer un modèle avec des effets fixes équivalents à ceux du modèle linéaire classique et des effets aléatoires. Ce type de modélisation, d'abord utilisé en génétique animale, est depuis quelques années largement utilisé en génétique humaine. Les utilisations de ce modèle sont nombreuses. En effet, il peut être utilisé en étude de liaison, d'association, pour l'estimation de l'héritabilité ou encore dans la recherche d'empreinte parentale et peut s'adapter à des données familiales ou en population.Le but de mon doctorat est d'exploiter différentes méthodes basées sur les modèles mixtes d'abord sur des données génétiques en population puis sur des données génétiques familiales.Dans un premier temps, nous explorons dans ce manuscrit la théorie des modèles linéaires mixtes et leur utilisation en génétique. Nous adaptons aussi certaines méthodes pour les appliquer à notre recherche. Ce travail a donné lieu au développement informatique d'un package R permettant d'utiliser ces modèles dans le cadre des études génétiques.Dans un deuxième temps, nous utilisons les modèles linéaires mixtes pour l'estimation de l'héritabilité dans une étude en population française, l'étude Trois-Cités. Nous disposons dans cette étude des génotypes des tag-SNPs habituellement utilisés dans les études d'association ainsi que des lieux de naissance et de plusieurs traits anthropométriques quantitatifs tels que la taille. L'objectif est alors d'étudier la présence et la prise en compte dans l'analyse de stratification de population dans cette étude. Dans ce manuscrit, nous analysons les coordonnées géographiques des lieux de naissance. Nos résultats mettent en évidence la difficulté pour corriger correctement la stratification de population avec les méthodes classiques dans certains cas. Nous analysons ensuite les traits anthropométriques en particulier la taille dont nous estimons l'héritabilité à 39% dans la population de l'étude Trois-Cités.Dans la dernière partie de ce manuscrit, nous nous concentrons sur les données familiales. Nous montrons le gain d’information que peut apporter ce type de données dans la recherche des variants causaux. Puis, nous explorons l'utilisation des modèles mixtes sur des données familiales en appliquant certaines des méthodes associées dans la recherche de signaux d'association pour la Sclérose en Plaques, une maladie auto-immune, en utilisant un échantillon d’une centaine de familles nucléaires avec au moins deux germains atteints. Nous avons alors mis en évidence l’inadéquation des méthodes classiques basées sur les modèles mixtes à ce type de données. Afin de mieux comprendre ce biais de sélection et de le corriger, plus d’investigations sont nécessaires. / Linear mixed models have been formalized 60 years ago. These models allow to estimate fixed effects, as in the linear models, and random effects. First used in animal genetics, this type of modelling have been widely used in human genetics since a few years. Mixed models can be used in many genetic analysis; linkage and association studies, heritability estimations and Parent-of Origin effects studies for population or familial data.My thesis’ aim is to investigate mixed models based methods, for genetic data in population and, for familial genetic data.In the first part of my thesis, we investigated the mixed model statistical theory and their multiple uses in human genetics. We also adapted methods for our own work. An R package have been created which permits to analyze genetic data in R environment with mixed models.In a second part, we applied mixed models on Three-Cities data, a French longitudinal study, to estimate heritability of several traits. For this analysis, we have access to tag-SNPs typically used in genome-wide association studies, birthplaces and several anthropometric traits. The aim of our study is to analyze presence of population stratification and evaluate methods to correct it. In the one hand, we analyzed birthplace geographic coordinates and showed that the correction for population stratification by classical method is not sufficient in this case. In the other hand, we analyzed anthropometric traits, in particular the height for which we estimated heritability to 39% in Three-Cities study population.In the last part, we focused on family data. In a first work, we exploited familial information in causal variant research. In a second work, we explored mixed models uses for familial data, in particular association study, on Multiple Sclerosis data. We showed that mixed model methods can not be used without taking account the ascertainment scheme: in our data, all families have at least two affected sibs. To understand and correct this phenomenon, more investigations are needed.
5

Méthodes de méta-analyse pour l’estimation des émissions de N2O par les sols agricoles / Meta-analysis methods to estimate N2O emissions from agricultural soils.

Philibert, Aurore 16 November 2012 (has links)
Le terme de méta-analyse désigne l'analyse statique d'un large ensemble de résultats provenant d'études individuelles pour un même sujet donné. Cette approche est de plus en plus étudiée dans différents domaines, notamment en agronomie. Dans cette discipline, une revue bibliographique réalisée dans le cadre de la thèse a cependant montré que les méta-analyses n'étaient pas toujours de bonne qualité. Les méta-analyses effectuées en agronomie étudient ainsi très rarement la robustesse de leurs conclusions aux données utilisées et aux méthodes statistiques. L'objectif de cette thèse est de démontrer et d'illustrer l'importance des analyses de sensibilité dans le cadre de la méta-analyse en s'appuyant sur l'exemple de l'estimation des émissions de N2O provenant des sols agricoles. L'estimation des émissions de protoxyde d'azote (N2O) est réalisée à l'échelle mondaile par le Groupe d'experts intergouvernemental sur l'évolution du climat (GIEC). Le N2O est un puissant gaz à effet de serre avec un pouvoir de réchauffement 298 fois plus puissant que le CO2 sur une période de 100 ans. Les émissions de N2O ont la particularité de présenter une forte variabilité spatiale et temporelle. Deux bases de données sont utilisées dans ce travail : la base de données de Rochette et Janzen (2005) et celle de Stehfest et Bouwman (2006). Elles recensent de nombreuses mesures d'émissions de N2O réparties dans le monde provenant d'études publiées et ont joué un rôle important lors des estimations d'émissions de N2O réalisées par le GIEC. Les résultats montrent l'intérêt des modèles à effets aléatoires pour estimer les émissions de NO2 issues de sols agricoles. Ils sont bien adaptés à la structure des données (observations répétées sur un même site pour différentes doses d'engrais, avec plusieurs sites considérés). Ils permettent de distinguer la variabilité inter-sites de la variabilité intra-site et d'estimer l'effet de la dose d'engrais azoté sur les émissions de NO2. Dans ce mémoire, l'analyse de la sensibilité des estimations à la forme de la relation "Emission de N2O / Dose d'engrais azoté" a montré qu'une relation exponentielle était plus adaptée. Il apparait ainsi souhaitable de remplacer le facteur d'émission constant du GIEC (1% d'émission quelque soit la dose d'engrais azoté) par un facteur variable qui augmenterait en fonction de la dose. Nous n'avons par contre pas identifié de différence importante entre les méthodes d'inférence fréquentiste et bayésienne. Deux approches ont été proposées pour inclure des variables de milieu et de pratiques culturales dans les estimations de N2O. La méthode Random Forest permet de gérer les données manquantes et présente les meilleures prédictions d'émission de N2O. Les modèles à effets aléatoires permettent eux de prendre en compte ces variables explicatives par le biais d'une ou plusieurs mesures d'émission de N2O. Cette méthode permet de prédire les émissions de N2O pour des doses non testées comme le cas non fertilisé en parcelles agricoles. Les résultats de cette méthode sont cependant sensibles au plan d'expérience utilisé localement pour mesurer les émissions de N2O. / The term meta-analysis refers to the statistical analysis of a large set of results coming from individual studies about the same topic. This approach is increasingly used in various areas, including agronomy. In this domain however, a bibliographic review conducted by this thesis, showed that meta-analyses were not always of good quality. Meta-analyses in agronomy very seldom study the robustness of their findings relative to data quality and statistical methods.The objective of this thesis is to demonstrate and illustrate the importance of sensitivity analysis in the context of meta-analysis and as an example this is based on the estimation of N2O emissions from agricultural soils. The estimation of emissions of nitrous oxide (N2O) is made at the worldwide level by the Intergovernmental Panel on Climate Change (IPCC). N2O is a potent greenhouse gas with a global warming power 298 times greater than the one of CO2 over a 100 year period. The key characteristics of N2O emissions are a significant spatial and time variability. Two databases are used for this work: the database of Rochette and Janzen (2005) and the one of Stehfest and Bouwman (2006). They collect numerous worldwide N2O emissions measurements from published studies and have played a significant role in the estimation of N2O emissions produced by the IPCC. The results show the value of random effects models in order to estimate N2O emissions from agricultural soils. They are well suited to the structure of the data (repeated observations on the same site for different doses of fertilizers, with several sites considered). They allow to differentiate the inter-site and intra-site variability and to estimate the effect of the rate of nitrogen fertilize on the N2O emissions. In this paper, the analysis of the sensitivity of the estimations to the shape of the relationship "Emission of N2O / N fertilizer dose" has shown that an exponential relationship would be the most appropriate. Therefore it would be appropriate to replace the constant emission factor of the IPCC (1% emission whatever the dose of nitrogen fertilizer) by a variable factor which would increase with the dose. On the other hand we did not identify significant differences between frequentist and Bayesian inference methods. Two approaches have been proposed to include environmental variables and cropping practices in the estimates of N2O. The first one using the Random Forest method allows managing missing data and provides the best N2O emissions predictions. The other one, based on random effects models allow to take into account these explanatory variables via one or several measurements of N2O. They allow predicting N2O emissions for non-tested doses in unfertilized farmer's field. However their results are sensitive to the experimental design used locally to measure N2O emissions.
6

Modélisation dynamique des sphères anatomique, cognitive et fonctionnelle dans la maladie d’Alzheimer : une approche par processus latents / Dynamic modeling of anatomic cognitive and functional spheres in Alzheimer’s disease : a latent process approach

Tadde, Oladédji bachirou 30 November 2018 (has links)
En santé publique, l’étude de la progression d’une maladie chronique et de son mécanisme peut nécessiter la modélisation conjointe de plusieurs marqueurs longitudinaux et leur structure de dépendances. Des approches de modélisation existent dans la littérature pour répondre partiellement aux objectifs de modélisation. Ces approches deviennent rapidement coûteuses et difficiles à utiliser dans certaines maladies complexes à caractère latent, dynamique et multidimensionnel, comme la maladie d’Alzheimer. Dans un tel contexte, l’objectif de cette thèse était de proposer une méthodologie innovante pour modéliser la dynamique de plusieurs processus latents et leurs influences temporelles à des fins d’interprétations causales à partir d’observations répétées de marqueurs continus Gaussiens et non Gaussiens. L’approche proposée, centrée sur des processus latents, définit un modèle structurel pour la trajectoire des processus latents et un modèle d’observation pour lier les marqueurs longitudinaux aux processus qu’ils mesurent. Dans le modèle structurel, défini en temps discret, le niveau initial et le taux de variation des processus spécifiques aux individus sont modélisés par des modèles linéaires à effets mixtes. Le modèle du taux de variation comporte une composante auto-régressive d’ordre 1 qui permet de modéliser l’effet d’un processus sur un autre processus en tenant explicitement compte du temps. Le modèle structurel, tel que défini, bénéficie des mêmes interprétations causales que les modèles à équations différentielles (ODE) de l’approche mécaniste de la causalité tout en évitant les problèmes numériques de ces derniers. Le modèle d’observation utilise des fonctions de lien paramétrées pour que le modèle puisse être appliqué à des marqueurs longitudinaux possiblement non Gaussiens. La méthodologie a été validée par des études de simulations. Cette approche, appliquée à la maladie d’Alzheimer a permis de décrire conjointement la dynamique de l’atrophie de l’hippocampe, du déclin de la mémoire épisodique, du déclin de la fluence verbale et de la perte d’autonomie ainsi que les influences temporelles entre ces dimensions dans plusieurs phases de la maladie à partir des données ADNI. / In public health, the study of the progression of a chronic disease and its mechanisms may require the joint modeling of several longitudinal markers and their dependence structure. Modeling approaches exist in the literature to partially address these modeling objectives. But these approaches become rapidly numerically expensive and difficult to use in some complex diseases involving latent, dynamic and multidimensional aspects, such as in Alzheimer’s disease. The aim of this thesis was to propose an innovative methodology for modeling the dynamics of several latent processes and their temporal influences for the purpose of causal interpretations, from repeated observations of continuous Gaussian and non Gaussian markers. The proposed latent process approach defines a structural model in discrete time for the latent processes trajectories and an observation model to relate longitudinal markers to the process they measure. In the structural model, the initial level and the rate of change of individual-specific processes are modeled by mixedeffect linear models. The rate of change model has a first order auto-regressive component that can model the effect of a process on another process by explicitly accounting for time. The structural model as defined benefits from the same causal interpretations as the models with differential equations (ODE) of the mechanistic approach of the causality while avoiding major numerical problems. The observation model uses parameterized link functions to handle possibly non-Gaussian continuous markers. The consistency of the ML estimators and the accuracy of the inference of the influence structures between the latent processes have been validated by simulation studies. This approach, applied to Alzheimer’s disease, allowed to jointly describe the dynamics of hippocampus atrophy, the decline of episodic memory, the decline of verbal fluency, and loss of autonomy as well as the temporal influences between these dimensions in several stages of Alzheimer’s dementia from the data of the ADNI initiative.
7

Méthodes statistiques pour l'évaluation du risque alimentaire

Tressou, Jessica 09 December 2005 (has links) (PDF)
Les aliments peuvent être contaminés par certaines substances chimiques, qui, lorsqu'elles sont ingérées à des doses trop importantes, peuvent engendrer des problèmes de santé. Notre but est d'évaluer la probabilité que l'exposition au contaminant dépasse durablement une dose tolérable par l'organisme que nous appelons risque. La modélisation de la queue de distribution par des lois extrêmes permet de quantifier un risque très faible. Dans les autres cas, l'estimateur empirique du risque s'écrit comme une U-statistique généralisée, ce qui permet d'en dériver les propriétés asymptotiques. Des développements statistiques permettent d'intégrer à ce modèle la censure des données de contamination. Enfin, un modèle économétrique de décomposition de données ménage en données individuelles nous permet de proposer une nouvelle méthode de quantification du risque de long terme prenant en compte l'accumulation du contaminant et sa lente dégradation par l'organisme.
8

Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire / Curve clustering and variable selection in mixed effects functional models. Applications to molecular biology

Giacofci, Joyce 22 October 2013 (has links)
Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte. / More and more scientific studies yield to the collection of a large amount of data that consist of sets of curves recorded on individuals. These data can be seen as an extension of longitudinal data in high dimension and are often modeled as functional data in a mixed-effects framework. In a first part we focus on performing unsupervised clustering of these curves in the presence of inter-individual variability. To this end, we develop a new procedure based on a wavelet representation of the model, for both fixed and random effects. Our approach follows two steps : a dimension reduction step, based on wavelet thresholding techniques, is first performed. Then a clustering step is applied on the selected coefficients. An EM-algorithm is used for maximum likelihood estimation of parameters. The properties of the overall procedure are validated by an extensive simulation study. We also illustrate our method on high throughput molecular data (omics data) like microarray CGH or mass spectrometry data. Our procedure is available through the R package "curvclust", available on the CRAN website. In a second part, we concentrate on estimation and dimension reduction issues in the mixed-effects functional framework. Two distinct approaches are developed according to these issues. The first approach deals with parameters estimation in a non parametrical setting. We demonstrate that the functional fixed effects estimator based on wavelet thresholding techniques achieves the expected rate of convergence toward the true function. The second approach is dedicated to the selection of both fixed and random effects. We propose a method based on a penalized likelihood criterion with SCAD penalties for the estimation and the selection of both fixed effects and random effects variances. In the context of variable selection we prove that the penalized estimators enjoy the oracle property when the signal size diverges with the sample size. A simulation study is carried out to assess the behaviour of the two proposed approaches.
9

Estimation non-paramétrique de la densité de variables aléatoires cachées / Nonparametric estimation of the density of hidden random variables.

Dion, Charlotte 24 June 2016 (has links)
Cette thèse comporte plusieurs procédures d'estimation non-paramétrique de densité de probabilité.Dans chaque cas les variables d'intérêt ne sont pas observées directement, ce qui est une difficulté majeure.La première partie traite un modèle linéaire mixte où des observations répétées sont disponibles.La deuxième partie s'intéresse aux modèles d'équations différentielles stochastiques à effets aléatoires. Plusieurs trajectoires sont observées en temps continu sur un intervalle de temps commun.La troisième partie se place dans un contexte de bruit multiplicatif.Les différentes parties de cette thèse sont reliées par un contexte commun de problème inverse et par une problématique commune: l'estimation de la densité d'une variable cachée. Dans les deux premières parties la densité d'un ou plusieurs effets aléatoires est estimée. Dans la troisième partie il s'agit de reconstruire la densité de la variable d'origine à partir d'observations bruitées.Différentes méthodes d'estimation globale sont utilisées pour construire des estimateurs performants: estimateurs à noyau, estimateurs par projection ou estimateurs construits par déconvolution.La sélection de paramètres mène à des estimateurs adaptatifs et les risques quadratiques intégrés sont majorés grâce à une inégalité de concentration de Talagrand. Une étude sur simulations de chaque estimateur illustre leurs performances. Un jeu de données neuronales est étudié grâce aux procédures mises en place pour les équations différentielles stochastiques. / This thesis contains several nonparametric estimation procedures of a probability density function.In each case, the main difficulty lies in the fact that the variables of interest are not directly observed.The first part deals with a mixed linear model for which repeated observations are available.The second part focuses on stochastic differential equations with random effects. Many trajectories are observed continuously on the same time interval.The third part is in a full multiplicative noise framework.The parts of the thesis are connected by the same context of inverse problems and by a common problematic: the estimation of the density function of a hidden variable.In the first two parts the density of one or two random effects is estimated. In the third part the goal is to rebuild the density of the original variable from the noisy observations.Different global methods are used and lead to well competitive estimators: kernel estimators, projection estimators or estimators built from deconvolution.Parameter selection gives adaptive estimators and the integrated risks are bounded using a Talagrand concentration inequality.A simulation study for each proposed estimator highlights their performances.A neuronal dataset is investigated with the new procedures for stochastic differential equations developed in this work.
10

Inférence dans les modèles à changement de pente aléatoire : application au déclin cognitif pré-démence / Inference for random changepoint models : application to pre-dementia cognitive decline

Segalas, Corentin 03 December 2019 (has links)
Le but de ce travail a été de proposer des méthodes d'inférence pour décrire l'histoire naturelle de la phase pré-diagnostic de la démence. Durant celle-ci, qui dure une quinzaine d'années, les trajectoires de déclin cognitif sont non linéaires et hétérogènes entre les sujets. Pour ces raisons, nous avons choisi un modèle à changement de pente aléatoire pour les décrire. Une première partie de ce travail a consisté à proposer une procédure de test pour l'existence d'un changement de pente aléatoire. En effet, dans certaines sous-populations, le déclin cognitif semble lisse et la question de l'existence même d'un changement de pente se pose. Cette question présente un défi méthodologique en raison de la non-identifiabilité de certains paramètres sous l'hypothèse nulle rendant les tests standards inutiles. Nous avons proposé un supremum score test pour répondre à cette question. Une seconde partie du travail concernait l'ordre temporel du temps de changement entre plusieurs marqueurs. La démence est une maladie multidimensionnelle et plusieurs dimensions de la cognition sont affectées. Des schémas hypothétiques existent pour décrire l'histoire naturelle de la démence mais n'ont pas été éprouvés sur données réelles. Comparer le temps de changement de différents marqueurs mesurant différentes fonctions cognitives permet d'éclairer ces hypothèses. Dans cet esprit, nous proposons un modèle bivarié à changement de pente aléatoire permettant de comparer les temps de changement de deux marqueurs, potentiellement non gaussiens. Les méthodes proposées ont été évaluées sur simulations et appliquées sur des données issues de deux cohortes françaises. Enfin, nous discutons les limites de ces deux modèles qui se concentrent sur une accélération tardive du déclin cognitif précédant le diagnostic de démence et nous proposons un modèle alternatif qui estime plutôt une date de décrochage entre cas et non-cas. / The aim of this work was to propose inferential methods to describe natural history of the pre-diagnosis phase of dementia. During this phase, which can last around fifteen years, the cognitive decline trajectories are nonlinear and heterogeneous between subjects. Because heterogeneity and nonlinearity, we chose a random changepoint mixed model to describe these trajectories. A first part of this work was to propose a testing procedure to assess the existence of a random changepoint. Indeed, in some subpopulations, the cognitive decline seems smooth and the question of the existence of a changepoint itself araises. This question is methodologically challenging because of identifiability issues on some parameters under the null hypothesis that makes standard tests useless. We proposed a supremum score test to answer this question. A second part of this work was the comparison of the temporal order of different markers changepoint. Dementia is a multidimensional disease where different dimensions of the cognition are affected. Hypothetic cascade models exist for describing this natural history but have not been evaluated on real data. Comparing change over time of different markers measuring different cognitive functions gives precious insight on this hypothesis. In this spirit, we propose a bivariate random changepoint model allowing proper comparison of the time of change of two cognitive markers, potentially non Gaussian. The proposed methodologies were evaluated on simulation studies and applied on real data from two French cohorts. Finally, we discussed the limitations of the two models we used that focused on the late acceleration of the cognitive decline before dementia diagnosis and we proposed an alternative model that estimates the time of differentiation between cases and non-cases.

Page generated in 0.0537 seconds