Spelling suggestions: "subject:"alidation croisée"" "subject:"alidation croisées""
21 |
MODELING HETEROTACHY IN PHYLOGENETICSZhou, Yan 04 1900 (has links)
Il a été démontré que l’hétérotachie, variation du taux de substitutions au cours du temps et entre les sites, est un phénomène fréquent au sein de données réelles. Échouer à modéliser l’hétérotachie peut potentiellement causer des artéfacts phylogénétiques. Actuellement, plusieurs modèles traitent l’hétérotachie : le modèle à mélange des longueurs de branche (MLB) ainsi que diverses formes du modèle covarion. Dans ce projet, notre but est de trouver un modèle qui prenne efficacement en compte les signaux hétérotaches présents dans les données, et ainsi améliorer l’inférence phylogénétique.
Pour parvenir à nos fins, deux études ont été réalisées. Dans la première, nous comparons le modèle MLB avec le modèle covarion et le modèle homogène grâce aux test AIC et BIC, ainsi que par validation croisée. A partir de nos résultats, nous pouvons conclure que le modèle MLB n’est pas nécessaire pour les sites dont les longueurs de branche diffèrent sur l’ensemble de l’arbre, car, dans les données réelles, le signaux hétérotaches qui interfèrent avec l’inférence phylogénétique sont généralement concentrés dans une zone limitée de l’arbre. Dans la seconde étude, nous relaxons l’hypothèse que le modèle covarion est homogène entre les sites, et développons un modèle à mélanges basé sur un processus de Dirichlet. Afin d’évaluer différents modèles hétérogènes, nous définissons plusieurs tests de non-conformité par échantillonnage postérieur prédictif pour étudier divers aspects de l’évolution moléculaire à partir de cartographies stochastiques. Ces tests montrent que le modèle à mélanges covarion utilisé avec une loi gamma est capable de refléter adéquatement les variations de substitutions tant à l’intérieur d’un site qu’entre les sites.
Notre recherche permet de décrire de façon détaillée l’hétérotachie dans des données réelles et donne des pistes à suivre pour de futurs modèles hétérotaches. Les tests de non conformité par échantillonnage postérieur prédictif fournissent des outils de diagnostic pour évaluer les modèles en détails. De plus, nos deux études révèlent la non spécificité des modèles hétérogènes et, en conséquence, la présence d’interactions entre différents modèles hétérogènes. Nos études suggèrent fortement que les données contiennent différents caractères hétérogènes qui devraient être pris en compte simultanément dans les analyses phylogénétiques. / Heterotachy, substitution rate variation across sites and time, has shown to be a frequent phenomenon in the real data. Failure to model heterotachy could potentially cause phylogenetic artefacts. Currently, there are several models to handle heterotachy, the mixture branch length model (MBL) and several variant forms of the covarion model. In this project, our objective is to find a model that efficiently handles heterotachous signals in the data, and thereby improves phylogenetic inference.
In order to achieve our goal, two individual studies were conducted. In the first study, we make comparisons among the MBL, covarion and homotachous models using AIC, BIC and cross validation. Based on our results, we conclude that the MBL model, in which sites have different branch lengths along the entire tree, is an over-parameterized model. Real data indicate that the heterotachous signals which interfere with phylogenetic inference are generally limited to a small area of the tree. In the second study, we relax the assumption of the homogeneity of the covarion parameters over sites, and develop a mixture covarion model using a Dirichlet process. In order to evaluate different heterogeneous models, we design several posterior predictive discrepancy tests to study different aspects of molecular evolution using stochastic mappings. The posterior predictive discrepancy tests demonstrate that the covarion mixture +Γ model is able to adequately model the substitution variation within and among sites.
Our research permits a detailed view of heterotachy in real datasets and gives directions for future heterotachous models. The posterior predictive discrepancy tests provide diagnostic tools to assess models in detail. Furthermore, both of our studies reveal the non-specificity of heterogeneous models. Our studies strongly suggest that different heterogeneous features in the data should be handled simultaneously.
|
22 |
Validation croisée et pénalisation pour l'estimation de densité / Cross-validation and penalization for density estimationMagalhães, Nelo 26 May 2015 (has links)
Cette thèse s'inscrit dans le cadre de l'estimation d'une densité, considéré du point de vue non-paramétrique et non-asymptotique. Elle traite du problème de la sélection d'une méthode d'estimation à noyau. Celui-ci est une généralisation, entre autre, du problème de la sélection de modèle et de la sélection d'une fenêtre. Nous étudions des procédures classiques, par pénalisation et par rééchantillonnage (en particulier la validation croisée V-fold), qui évaluent la qualité d'une méthode en estimant son risque. Nous proposons, grâce à des inégalités de concentration, une méthode pour calibrer la pénalité de façon optimale pour sélectionner un estimateur linéaire et prouvons des inégalités d'oracle et des propriétés d'adaptation pour ces procédures. De plus, une nouvelle procédure rééchantillonnée, reposant sur la comparaison entre estimateurs par des tests robustes, est proposée comme alternative aux procédures basées sur le principe d'estimation sans biais du risque. Un second objectif est la comparaison de toutes ces procédures du point de vue théorique et l'analyse du rôle du paramètre V pour les pénalités V-fold. Nous validons les résultats théoriques par des études de simulations. / This thesis takes place in the density estimation setting from a nonparametric and nonasymptotic point of view. It concerns the statistical algorithm selection problem which generalizes, among others, the problem of model and bandwidth selection. We study classical procedures, such as penalization or resampling procedures (in particular V-fold cross-validation), which evaluate an algorithm by estimating its risk. We provide, thanks to concentration inequalities, an optimal penalty for selecting a linear estimator and we prove oracle inequalities and adaptative properties for resampling procedures. Moreover, new resampling procedure, based on estimator comparison by the mean of robust tests, is introduced as an alternative to procedures relying on the unbiased risk estimation principle. A second goal of this work is to compare these procedures from a theoretical point of view and to understand the role of V for V-fold penalization. We validate these theoretical results on empirical studies.
|
23 |
Apport de la tomographie électrique à la modélisation des écoulements densitaires dans les aquifères côtiers - Application à trois contextes climatiques contrastés (Canada, Nouvelle-Calédonie, Sénégal)Comte, Jean-Christophe 05 December 2008 (has links) (PDF)
L'équilibre densitaire entre l'eau douce et l'eau salée dans les aquifères côtiers est un phénomène instable difficile à caractériser. La validation des modèles hydrogéologiques 2D/3D reste alors délicate sur la seule base de données ponctuelles d'observation en forages. Dans ce but, la tomographie de résistivité électrique (ERT) constitue une technique d'investigation pertinente pour la caractérisation haute résolution de la distribution 2D/3D du sel au sein de l'aquifère.<br />Une méthodologie de validation croisée entre les modèles géo-électriques et les modèles d'écoulement densitaire a été développée. Dans un premier temps, l'interprétation par modélisation inverse des mesures ERT fournit des informations pertinentes pour la structuration et le paramétrage des modèles hydrogéologiques (géométrie du réservoir, vitesses d'écoulement, etc.). Dans un deuxième temps, une validation qualitative est obtenue par comparaison entre la distribution des salinités interprétée d'après les résultats du modèle géo-électrique d'inversion et celle simulée par le modèle d'écoulement densitaire. Enfin, une validation quantitative est obtenue par comparaison entre la réponse géo-électrique théorique des salinités simulées par le modèle hydrogéologique (préalablement transformées en résistivité par application d'un modèle hydro-pétrophysique) et les mesures ERT acquises sur le terrain.<br />La fiabilité de la méthode a été précisée par des analyses de sensibilité conduites sur les différents modèles utilisés (géo-électrique, hydrogéologique et hydro-pétrophysique) et son applicabilité a été testée sur trois contextes hydrogéologiques et climatiques différents. Ainsi, aux Îles-de-la-Madeleine (Canada), les remontées salines sous les captages d'eau ont été caractérisées. Sur l'îlot M'Ba (Nouvelle-Calédonie), les variations spatiales de la recharge contrôlant le développement de la lentille d'eau douce ont été évaluées. Enfin, sur le tombolo de Pikine (Sénégal), les phénomènes évapotranspiratoires et concentrateurs intenses affectant les dépressions inter-dunaires ont été quantifiés.
|
24 |
Méthode non-paramétrique des noyaux associés mixtes et applications / Non parametric method of mixed associated kernels and applicationsLibengue Dobele-kpoka, Francial Giscard Baudin 13 June 2013 (has links)
Nous présentons dans cette thèse, l'approche non-paramétrique par noyaux associés mixtes, pour les densités àsupports partiellement continus et discrets. Nous commençons par rappeler d'abord les notions essentielles d'estimationpar noyaux continus (classiques) et noyaux associés discrets. Nous donnons la définition et les caractéristiques desestimateurs à noyaux continus (classiques) puis discrets. Nous rappelons aussi les différentes techniques de choix deparamètres de lissage et nous revisitons les problèmes de supports ainsi qu'une résolution des effets de bord dans le casdiscret. Ensuite, nous détaillons la nouvelle méthode d'estimation de densités par les noyaux associés continus, lesquelsenglobent les noyaux continus (classiques). Nous définissons les noyaux associés continus et nous proposons laméthode mode-dispersion pour leur construction puis nous illustrons ceci sur les noyaux associés non-classiques de lalittérature à savoir bêta et sa version étendue, gamma et son inverse, gaussien inverse et sa réciproque le noyau dePareto ainsi que le noyau lognormal. Nous examinons par la suite les propriétés des estimateurs qui en sont issus plusprécisément le biais, la variance et les erreurs quadratiques moyennes ponctuelles et intégrées. Puis, nous proposons unalgorithme de réduction de biais que nous illustrons sur ces mêmes noyaux associés non-classiques. Des études parsimulations sont faites sur trois types d’estimateurs à noyaux lognormaux. Par ailleurs, nous étudions lescomportements asymptotiques des estimateurs de densité à noyaux associés continus. Nous montrons d'abord lesconsistances faibles et fortes ainsi que la normalité asymptotique ponctuelle. Ensuite nous présentons les résultats desconsistances faibles et fortes globales en utilisant les normes uniformes et L1. Nous illustrons ceci sur trois typesd’estimateurs à noyaux lognormaux. Par la suite, nous étudions les propriétés minimax des estimateurs à noyauxassociés continus. Nous décrivons d'abord le modèle puis nous donnons les hypothèses techniques avec lesquelles noustravaillons. Nous présentons ensuite nos résultats minimax tout en les appliquant sur les noyaux associés non-classiquesbêta, gamma et lognormal. Enfin, nous combinons les noyaux associés continus et discrets pour définir les noyauxassociés mixtes. De là, les outils d'unification d'analyses discrètes et continues sont utilisés, pour montrer les différentespropriétés des estimateurs à noyaux associés mixtes. Une application sur un modèle de mélange des lois normales et dePoisson tronquées est aussi donnée. Tout au long de ce travail, nous choisissons le paramètre de lissage uniquementavec la méthode de validation croisée par les moindres carrés. / We present in this thesis, the non-parametric approach using mixed associated kernels for densities withsupports being partially continuous and discrete. We first start by recalling the essential concepts of classical continuousand discrete kernel density estimators. We give the definition and characteristics of these estimators. We also recall thevarious technical for the choice of smoothing parameters and we revisit the problems of supports as well as a resolutionof the edge effects in the discrete case. Then, we describe a new method of continuous associated kernels for estimatingdensity with bounded support, which includes the classical continuous kernel method. We define the continuousassociated kernels and we propose the mode-dispersion for their construction. Moreover, we illustrate this on the nonclassicalassociated kernels of literature namely, beta and its extended version, gamma and its inverse, inverse Gaussianand its reciprocal, the Pareto kernel and the kernel lognormal. We subsequently examine the properties of the estimatorswhich are derived, specifically, the bias, variance and the pointwise and integrated mean squared errors. Then, wepropose an algorithm for reducing bias that we illustrate on these non-classical associated kernels. Some simulationsstudies are performed on three types of estimators lognormal kernels. Also, we study the asymptotic behavior of thecontinuous associated kernel estimators for density. We first show the pointwise weak and strong consistencies as wellas the asymptotic normality. Then, we present the results of the global weak and strong consistencies using uniform andL1norms. We illustrate this on three types of lognormal kernels estimators. Subsequently, we study the minimaxproperties of the continuous associated kernel estimators. We first describe the model and we give the technicalassumptions with which we work. Then we present our results that we apply on some non-classical associated kernelsmore precisely beta, gamma and lognormal kernel estimators. Finally, we combine continuous and discrete associatedkernels for defining the mixed associated kernels. Using the tools of the unification of discrete and continuous analysis,we show the different properties of the mixed associated kernel estimators. All through this work, we choose thesmoothing parameter using the least squares cross-validation method.
|
25 |
Estimations non paramétriques par noyaux associés multivariés et applications / Nonparametric estimation by multivariate associated kernels and applicationsSomé, Sobom Matthieu 16 November 2015 (has links)
Dans ce travail, l'approche non-paramétrique par noyaux associés mixtes multivariés est présentée pour les fonctions de densités, de masse de probabilité et de régressions à supports partiellement ou totalement discrets et continus. Pour cela, quelques aspects essentiels des notions d'estimation par noyaux continus (dits classiques) multivariés et par noyaux associés univariés (discrets et continus) sont d'abord rappelés. Les problèmes de supports sont alors révisés ainsi qu'une résolution des effets de bords dans les cas des noyaux associés univariés. Le noyau associé multivarié est ensuite défini et une méthode de leur construction dite mode-dispersion multivarié est proposée. Il s'ensuit une illustration dans le cas continu utilisant le noyau bêta bivarié avec ou sans structure de corrélation de type Sarmanov. Les propriétés des estimateurs telles que les biais, les variances et les erreurs quadratiques moyennes sont également étudiées. Un algorithme de réduction du biais est alors proposé et illustré sur ce même noyau avec structure de corrélation. Des études par simulations et applications avec le noyau bêta bivarié avec structure de corrélation sont aussi présentées. Trois formes de matrices des fenêtres, à savoir, pleine, Scott et diagonale, y sont utilisées puis leurs performances relatives sont discutées. De plus, des noyaux associés multiples ont été efficaces dans le cadre de l'analyse discriminante. Pour cela, on a utilisé les noyaux univariés binomial, catégoriel, triangulaire discret, gamma et bêta. Par la suite, les noyaux associés avec ou sans structure de corrélation ont été étudiés dans le cadre de la régression multiple. En plus des noyaux univariés ci-dessus, les noyaux bivariés avec ou sans structure de corrélation ont été aussi pris en compte. Les études par simulations montrent l'importance et les bonnes performances du choix des noyaux associés multivariés à matrice de lissage pleine ou diagonale. Puis, les noyaux associés continus et discrets sont combinés pour définir les noyaux associés mixtes univariés. Les travaux ont aussi donné lieu à la création d'un package R pour l'estimation de fonctions univariés de densités, de masse de probabilité et de régression. Plusieurs méthodes de sélections de fenêtres optimales y sont implémentées avec une interface facile d'utilisation. Tout au long de ce travail, la sélection des matrices de lissage se fait généralement par validation croisée et parfois par les méthodes bayésiennes. Enfin, des compléments sur les constantes de normalisations des estimateurs à noyaux associés des fonctions de densité et de masse de probabilité sont présentés. / This work is about nonparametric approach using multivariate mixed associated kernels for densities, probability mass functions and regressions estimation having supports partially or totally discrete and continuous. Some key aspects of kernel estimation using multivariate continuous (classical) and (discrete and continuous) univariate associated kernels are recalled. Problem of supports are also revised as well as a resolution of boundary effects for univariate associated kernels. The multivariate associated kernel is then defined and a construction by multivariate mode-dispersion method is provided. This leads to an illustration on the bivariate beta kernel with Sarmanov's correlation structure in continuous case. Properties of these estimators are studied, such as the bias, variances and mean squared errors. An algorithm for reducing the bias is proposed and illustrated on this bivariate beta kernel. Simulations studies and applications are then performed with bivariate beta kernel. Three types of bandwidth matrices, namely, full, Scott and diagonal are used. Furthermore, appropriated multiple associated kernels are used in a practical discriminant analysis task. These are the binomial, categorical, discrete triangular, gamma and beta. Thereafter, associated kernels with or without correlation structure are used in multiple regression. In addition to the previous univariate associated kernels, bivariate beta kernels with or without correlation structure are taken into account. Simulations studies show the performance of the choice of associated kernels with full or diagonal bandwidth matrices. Then, (discrete and continuous) associated kernels are combined to define mixed univariate associated kernels. Using the tools of unification of discrete and continuous analysis, the properties of the mixed associated kernel estimators are shown. This is followed by an R package, created in univariate case, for densities, probability mass functions and regressions estimations. Several smoothing parameter selections are implemented via an easy-to-use interface. Throughout the paper, bandwidth matrix selections are generally obtained using cross-validation and sometimes Bayesian methods. Finally, some additionnal informations on normalizing constants of associated kernel estimators are presented for densities or probability mass functions.
|
Page generated in 0.0931 seconds