• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 4
  • Tagged with
  • 14
  • 14
  • 14
  • 6
  • 5
  • 5
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Inférence statistique en grande dimension pour des modèles structurels. Modèles linéaires généralisés parcimonieux, méthode PLS et polynômes orthogonaux et détection de communautés dans des graphes. / Statistical inference for structural models in high dimension. Sparse generalized linear models, PLS through orthogonal polynomials and community detection in graphs

Blazere, Melanie 01 July 2015 (has links)
Cette thèse s'inscrit dans le cadre de l'analyse statistique de données en grande dimension. Nous avons en effet aujourd'hui accès à un nombre toujours plus important d'information. L'enjeu majeur repose alors sur notre capacité à explorer de vastes quantités de données et à en inférer notamment les structures de dépendance. L'objet de cette thèse est d'étudier et d'apporter des garanties théoriques à certaines méthodes d'estimation de structures de dépendance de données en grande dimension.La première partie de la thèse est consacrée à l'étude de modèles parcimonieux et aux méthodes de type Lasso. Après avoir présenté les résultats importants sur ce sujet dans le chapitre 1, nous généralisons le cas gaussien à des modèles exponentiels généraux. La contribution majeure à cette partie est présentée dans le chapitre 2 et consiste en l'établissement d'inégalités oracles pour une procédure Group Lasso appliquée aux modèles linéaires généralisés. Ces résultats montrent les bonnes performances de cet estimateur sous certaines conditions sur le modèle et sont illustrés dans le cas du modèle Poissonien. Dans la deuxième partie de la thèse, nous revenons au modèle de régression linéaire, toujours en grande dimension mais l'hypothèse de parcimonie est cette fois remplacée par l'existence d'une structure de faible dimension sous-jacente aux données. Nous nous penchons dans cette partie plus particulièrement sur la méthode PLS qui cherche à trouver une décomposition optimale des prédicteurs étant donné un vecteur réponse. Nous rappelons les fondements de la méthode dans le chapitre 3. La contribution majeure à cette partie consiste en l'établissement pour la PLS d'une expression analytique explicite de la structure de dépendance liant les prédicteurs à la réponse. Les deux chapitres suivants illustrent la puissance de cette formule aux travers de nouveaux résultats théoriques sur la PLS . Dans une troisième et dernière partie, nous nous intéressons à la modélisation de structures au travers de graphes et plus particulièrement à la détection de communautés. Après avoir dressé un état de l'art du sujet, nous portons notre attention sur une méthode en particulier connue sous le nom de spectral clustering et qui permet de partitionner les noeuds d'un graphe en se basant sur une matrice de similarité. Nous proposons dans cette thèse une adaptation de cette méthode basée sur l'utilisation d'une pénalité de type l1. Nous illustrons notre méthode sur des simulations. / This thesis falls within the context of high-dimensional data analysis. Nowadays we have access to an increasing amount of information. The major challenge relies on our ability to explore a huge amount of data and to infer their dependency structures.The purpose of this thesis is to study and provide theoretical guarantees to some specific methods that aim at estimating dependency structures for high-dimensional data. The first part of the thesis is devoted to the study of sparse models through Lasso-type methods. In Chapter 1, we present the main results on this topic and then we generalize the Gaussian case to any distribution from the exponential family. The major contribution to this field is presented in Chapter 2 and consists in oracle inequalities for a Group Lasso procedure applied to generalized linear models. These results show that this estimator achieves good performances under some specific conditions on the model. We illustrate this part by considering the case of the Poisson model. The second part concerns linear regression in high dimension but the sparsity assumptions is replaced by a low dimensional structure underlying the data. We focus in particular on the PLS method that attempts to find an optimal decomposition of the predictors given a response. We recall the main idea in Chapter 3. The major contribution to this part consists in a new explicit analytical expression of the dependency structure that links the predictors to the response. The next two chapters illustrate the power of this formula by emphasising new theoretical results for PLS. The third and last part is dedicated to graphs modelling and especially to community detection. After presenting the main trends on this topic, we draw our attention to Spectral Clustering that allows to cluster nodes of a graph with respect to a similarity matrix. In this thesis, we suggest an alternative to this method by considering a $l_1$ penalty. We illustrate this method through simulations.
12

Modélisation multi-échelles de la sélection de l’habitat hydraulique des poissons de rivière / Multi-scale modelling of hydraulic habitat selection of freshwater fish

Plichard, Laura 10 December 2018 (has links)
Le concept d’habitat, qui définit le lieu de vie des organismes par des conditions abiotiques et biotiques, est déterminant pour étudier les relations entre les organismes et leur environnement. La sélection d’habitat est le processus à travers lequel l’organisme va choisir l’habitat où il se trouve en fonction des différents habitats disponibles autour de lui. Cette sélection va dépendre d’un choix individuel, qui est propre à l’organisme (ex. son comportement), et d’un choix commun, qui est observable chez des organismes qui partagent des traits communs (ex. les individus d’une même espèce). Les modèles spécifiques de sélection d’habitat cherchent à expliquer et prédire ce choix commun, et sont notamment utilisés pour les cours d’eau dans les outils d'aide à la définition de débits écologiques. Pour les poissons de rivière, la plupart des modèles spécifiques à l’échelle du microhabitat sont peu transférables à d’autres rivières. En effet, ils sont construits à partir de données d’abondance échantillonnées dans le même site pendant quelques campagnes. Afin d’améliorer la qualité prédictive de ces modèles, j’ai développé une approche prometteuse de modélisation multi-sites et multi-campagnes permettant à la fois de considérer la réponse non linéaire de la sélection et la surdispersion des données d’abondance. A partir de suivis individuels par télémétrie, j’ai montré la pertinence des modèles de sélection spécifiques malgré la forte variabilité individuelle observée. Finalement, la sélection d’habitat étant dépendante de processus structurant les communautés et agissant à l’échelle du paysage, telle que la dispersion des individus, j’ai mis en évidence l’intérêt d’utiliser des techniques légères d’échantillonnage comme les observations par plongée pour caractériser les structures des communautés et leurs répartitions spatiales. Ces techniques permettront alors d’étudier l’influence des processus du paysage sur les modèles de sélection d’habitat / The habitat concept, which defines the place where organisms live, is composed by abiotic and biotic conditions and differs for examples between species or activities. The habitat selection is the process where organisms choose the habitat to live in function of all habitats available around them. This habitat selection depends on an individual choice related to the organism, for example its behavior and a common choice related to organisms sharing common traits as individuals from the same species. Specific habitat selection models are developed to understand and represent this common choice and used to build ecological flow tools. For freshwater fish, most of specific habitat selection models have low transferability between reaches and rivers. Indeed, they are built from abundance data and sampled in the same study reach during few numbers of surveys. In order to improve predictive quality of models, I developed an attractive modelling approach, both multi-reach and multi-survey, involving the non-linear response of habitat selection and abundance data overdispersion. Then, despite the high individual variability of habitat selection, I showed, from telemetry data, the relevance of developing specific habitat selection models. Finally, as the habitat selection is also depending on processes which influence community structures at the landscape scale (e.g. dispersal), I demonstrate the benefits of sampling methods such as snorkeling to characterize community structures and their longitudinal distributions at a large spatial scale. These techniques will allow studying the influence of landscape processes on habitat selection models.
13

Assessing the robustness of genetic codes and genomes

Sautié Castellanos, Miguel 06 1900 (has links)
Deux approches principales existent pour évaluer la robustesse des codes génétiques et des séquences de codage. L'approche statistique est basée sur des estimations empiriques de probabilité calculées à partir d'échantillons aléatoires de permutations représentant les affectations d'acides aminés aux codons, alors que l'approche basée sur l'optimisation repose sur le pourcentage d’optimisation, généralement calculé en utilisant des métaheuristiques. Nous proposons une méthode basée sur les deux premiers moments de la distribution des valeurs de robustesse pour tous les codes génétiques possibles. En se basant sur une instance polynomiale du Problème d'Affectation Quadratique, nous proposons un algorithme vorace exact pour trouver la valeur minimale de la robustesse génomique. Pour réduire le nombre d'opérations de calcul des scores et de la borne supérieure de Cantelli, nous avons développé des méthodes basées sur la structure de voisinage du code génétique et sur la comparaison par paires des codes génétiques, entre autres. Pour calculer la robustesse des codes génétiques naturels et des génomes procaryotes, nous avons choisi 23 codes génétiques naturels, 235 propriétés d'acides aminés, ainsi que 324 procaryotes thermophiles et 418 procaryotes non thermophiles. Parmi nos résultats, nous avons constaté que bien que le code génétique standard soit plus robuste que la plupart des codes génétiques, certains codes génétiques mitochondriaux et nucléaires sont plus robustes que le code standard aux troisièmes et premières positions des codons, respectivement. Nous avons observé que l'utilisation des codons synonymes tend à être fortement optimisée pour amortir l'impact des changements d'une seule base, principalement chez les procaryotes thermophiles. / There are two main approaches to assess the robustness of genetic codes and coding sequences. The statistical approach is based on empirical estimates of probabilities computed from random samples of permutations representing assignments of amino acids to codons, whereas, the optimization-based approach relies on the optimization percentage frequently computed by using metaheuristics. We propose a method based on the first two moments of the distribution of robustness values for all possible genetic codes. Based on a polynomially solvable instance of the Quadratic Assignment Problem, we propose also an exact greedy algorithm to find the minimum value of the genome robustness. To reduce the number of operations for computing the scores and Cantelli’s upper bound, we developed methods based on the genetic code neighborhood structure and pairwise comparisons between genetic codes, among others. For assessing the robustness of natural genetic codes and genomes, we have chosen 23 natural genetic codes, 235 amino acid properties, as well as 324 thermophilic and 418 non-thermophilic prokaryotes. Among our results, we found that although the standard genetic code is more robust than most genetic codes, some mitochondrial and nuclear genetic codes are more robust than the standard code at the third and first codon positions, respectively. We also observed that the synonymous codon usage tends to be highly optimized to buffer the impact of single-base changes, mainly, in thermophilic prokaryotes.
14

Modélisation conjointe de trajectoire socioprofessionnelle individuelle et de la survie globale ou spécifique / Joint modeling of individual socio-professional trajectory and overall or cause-specific survival

Karimi, Maryam 06 June 2016 (has links)
Appartenir à une catégorie socio-économique moins élevée est généralement associé à une mortalité plus élevée pour de nombreuses causes de décès. De précédentes études ont déjà montré l’importance de la prise en compte des différentes dimensions des trajectoires socio-économiques au cours de la vie. L’analyse des trajectoires professionnelles constitue une étape importante pour mieux comprendre ces phénomènes. L’enjeu pour mesurer l’association entre les parcours de vie des trajectoires socio-économiques et la mortalité est de décomposer la part respective de ces facteurs dans l’explication du niveau de survie des individus. La complexité de l’interprétation de cette association réside dans la causalité bidirectionnelle qui la sous-tend: Les différentiels de mortalité sont-ils dus à des différentielsd’état de santé initial influençant conjointement la situation professionnelle et la mortalité, ou l’évolution professionnelle influence-t-elle directement l’état de santé puis la mortalité?Les méthodes usuelles ne tiennent pas compte de l’interdépendance des changements de situation professionnelle et de la bidirectionnalité de la causalité qui conduit à un biais important dans l’estimation du lien causale entre situation professionnelle et mortalité. Par conséquent, il est nécessaire de proposer des méthodes statistiques qui prennent en compte des mesures répétées (les professions) simultanément avec les variables de survie. Cette étude est motivée par la base de données Cosmop-DADS qui est un échantillon de la population salariée française.Le premier objectif de cette thèse était d’examiner l’ensemble des trajectoires professionnelles avec une classification professionnelle précise, au lieu d’utiliser un nombre limité d’états dans un parcours professionnel qui a été considéré précédemment. A cet effet, nous avons défini des variables dépendantes du temps afinde prendre en compte différentes dimensions des trajectoires professionnelles, à travers des modèles dits de "life-course", à savoir critical period, accumulation model et social mobility model, et nous avons mis en évidence l’association entre les trajectoires professionnelles et la mortalité par cause en utilisant ces variables dans un modèle de Cox.Le deuxième objectif a consisté à intégrer les épisodes professionnel comme un sous-modèle longitudinal dans le cadre des modèles conjoints pour réduire le biais issude l’inclusion des covariables dépendantes du temps endogènes dans le modèle de Cox. Nous avons proposé un modèle conjoint pour les données longitudinales nominaleset des données de risques concurrents dans une approche basée sur la vraisemblance. En outre, nous avons proposé une approche de type méta-analyse pour résoudre les problèmes liés au temps des calculs dans les modèles conjoints appliqués à l’analyse des grandes bases de données. Cette approche consiste à combiner les résultats issus d’analyses effectuées sur les échantillons stratifiés indépendants. Dans la même perspective de l’utilisation du modèle conjoint sur les grandes bases de données, nous avons proposé une procédure basée sur l’avantage computationnel de la régression de Poisson.Cette approche consiste à trouver les trajectoires typesà travers les méthodes de la classification, et d’appliquerle modèle conjoint sur ces trajectoires types. / Being in low socioeconomic position is associated with increased mortality risk from various causes of death. Previous studies have already shown the importance of considering different dimensions of socioeconomic trajectories across the life-course. Analyses of professional trajectories constitute a crucial step in order to better understand the association between socio-economic position and mortality. The main challenge in measuring this association is then to decompose the respectiveshare of these factors in explaining the survival level of individuals. The complexity lies in the bidirectional causality underlying the observed associations:Are mortality differentials due to differences in the initial health conditions that are jointly influencing employment status and mortality, or the professional trajectory influences directly health conditions and then mortality?Standard methods do not consider the interdependence of changes in occupational status and the bidirectional causal effect underlying the observed association and that leads to substantial bias in estimating the causal link between professional trajectory and mortality. Therefore, it is necessary to propose statistical methods that consider simultaneously repeated measurements (careers) and survivalvariables. This study was motivated by the Cosmop-DADS database, which is a sample of the French salaried population.The first aim of this dissertation was to consider the whole professional trajectories and an accurate occupational classification, instead of using limitednumber of stages during life course and a simple occupational classification that has been considered previously. For this purpose, we defined time-dependent variables to capture different life course dimensions, namely critical period, accumulation model and social mobility model, and we highlighted the association between professional trajectories and cause-specific mortality using the definedvariables in a Cox proportional hazards model.The second aim was to incorporate the employment episodes in a longitudinal sub-model within the joint model framework to reduce the bias resulting from the inclusion of internal time-dependent covariates in the Cox model. We proposed a joint model for longitudinal nominal outcomes and competing risks data in a likelihood-based approach. In addition, we proposed an approach mimicking meta-analysis to address the calculation problems in joint models and large datasets, by extracting independent stratified samples from the large dataset, applying the joint model on each sample and then combining the results. In the same objective, that is fitting joint model on large-scale data, we propose a procedure based on the appeal of the Poisson regression model. This approach consist of finding representativetrajectories by means of clustering methods and then applying the joint model on these representative trajectories.

Page generated in 0.1014 seconds